INDEX
Negative Logits
bigger
-0.06
勝
-0.06
처음
-0.06
_growth
-0.06
podium
-0.06
brand
-0.06
짓
-0.06
mosques
-0.06
minorities
-0.06
wurden
-0.06
POSITIVE LOGITS
Pied
0.07
@c
0.07
[X
0.06
وف
0.06
К
0.06
Pak
0.06
klin
0.06
%↵
0.06
dracon
0.06
penal
0.06
Activations Density 0.006%