INDEX
Negative Logits
Title
-0.07
.white
-0.07
tahun
-0.07
Spam
-0.06
�
-0.06
най
-0.06
ženy
-0.06
:name
-0.06
_epsilon
-0.06
Vaccine
-0.06
POSITIVE LOGITS
qx
0.07
Ø
0.06
jaký
0.06
costume
0.06
dışı
0.06
axe
0.06
uc
0.06
sb
0.06
tooth
0.06
inion
0.06
Activations Density 0.001%