INDEX
Negative Logits
ционер
-0.08
homosexual
-0.08
Amigos
-0.08
despi
-0.08
Grecia
-0.08
皇冠
-0.08
-0.08
tipped
-0.08
agé
-0.08
comrades
-0.07
POSITIVE LOGITS
36
0.11
measurements
0.08
dst
0.07
Mt
0.07
_W
0.07
end
0.06
благ
0.06
end
0.06
762
0.06
Ё
0.06
Activations Density 0.005%