INDEX
Negative Logits
kring
-0.10
auto
-0.08
measurement
-0.08
batter
-0.08
qor
-0.08
paus
-0.08
ത്തിന്റെ
-0.08
(auto
-0.07
transition
-0.07
Measurement
-0.07
POSITIVE LOGITS
heroin
0.09
combustible
0.07
Rules
0.07
Restrictions
0.07
offenders
0.07
违反
0.07
?!↵
0.07
_rules
0.07
restricciones
0.07
MULT
0.07
Activations Density 0.001%