INDEX
Explanations
qualifications and considerations
New Auto-Interp
Negative Logits
.
0.17
er
0.16
)
0.15
:
0.15
-->
0.15
_,
0.15
?,
0.15
*,
0.15
-->
0.15
använder
0.15
POSITIVE LOGITS
respect
0.29
regard
0.29
impunity
0.28
regards
0.28
emphasis
0.26
standing
0.26
énfasis
0.26
gusto
0.26
caveats
0.25
implications
0.24
Activations Density 0.162%