INDEX
Negative Logits
Keynes
-0.07
Mush
-0.07
Fork
-0.06
Canton
-0.06
فلس
-0.06
_AUX
-0.06
rasp
-0.06
watering
-0.06
волод
-0.06
KY
-0.06
POSITIVE LOGITS
premiere
0.07
(meta
0.07
-------------
0.07
kişilerin
0.07
ние
0.06
exclude
0.06
temporal
0.06
triggered
0.06
一下
0.06
(IC
0.06
Activations Density 0.001%