INDEX
Negative Logits
دا
-0.08
س
-0.08
прин
-0.08
средства
-0.07
Walsh
-0.07
eno
-0.07
الور
-0.07
kanten
-0.07
ways
-0.07
exper
-0.07
POSITIVE LOGITS
_plugins
0.08
Shown
0.08
rum
0.08
tarvit
0.07
Tin
0.07
misconduct
0.07
Tin
0.07
ξ
0.07
总书记
0.07
弟
0.07
Activations Density 0.003%