INDEX
Negative Logits
-duty
-0.09
CM
-0.08
Д
-0.08
rules
-0.08
XX
-0.08
654
-0.08
�
-0.08
ureau
-0.08
(S
-0.07
_rules
-0.07
POSITIVE LOGITS
Riv
0.09
uke
0.08
tep
0.08
aget
0.08
чай
0.08
jei
0.08
Tea
0.07
ley
0.07
ధర
0.07
Bereiche
0.07
Activations Density 0.001%