INDEX
Negative Logits
atta
-0.07
Yük
-0.07
endir
-0.07
ادي
-0.06
adjacent
-0.06
pty
-0.06
_Enc
-0.06
chap
-0.06
stří
-0.06
_sn
-0.06
POSITIVE LOGITS
_updates
0.07
засобів
0.07
อย
0.07
нош
0.06
اقتص
0.06
boil
0.06
शन
0.06
BAD
0.06
LEFT
0.06
Animal
0.06
Activations Density 0.002%