INDEX
Negative Logits
Кор
-0.08
닉
-0.07
samp
-0.07
.Comm
-0.07
�
-0.07
тв
-0.07
(";-0.07
μόνο
-0.06
เฟ
-0.06
اسپ
-0.06
POSITIVE LOGITS
fuel
0.07
jur
0.06
filename
0.06
ثير
0.06
ise
0.06
ограф
0.06
het
0.06
ESPN
0.06
اجع
0.06
guar
0.05
Activations Density 0.000%