INDEX
Negative Logits
kd
-0.07
'+
-0.07
yol
-0.06
fon
-0.06
resilient
-0.06
arResult
-0.06
-sw
-0.06
싱
-0.06
"
-0.06
dict
-0.06
POSITIVE LOGITS
acknowledgment
0.07
на
0.07
entes
0.07
псих
0.06
þ
0.06
ês
0.06
piled
0.06
dez
0.06
начинает
0.06
collusion
0.06
Activations Density 0.001%