INDEX
Negative Logits
categorized
-0.07
первого
-0.06
Tw
-0.06
curl
-0.06
到了
-0.06
觚
-0.06
ということで
-0.06
الأوسط
-0.06
הזאת
-0.06
TRE
-0.06
POSITIVE LOGITS
ditch
0.07
Spanish
0.07
Polic
0.07
ades
0.07
渔船
0.07
ザー
0.07
0.06
nos
0.06
ств
0.06
stupid
0.06
Activations Density 0.001%