INDEX
Negative Logits
Euro
-0.06
("/")-0.06
.tele
-0.06
��
-0.06
Sele
-0.06
skype
-0.06
ру
-0.06
.Manager
-0.06
thems
-0.05
belie
-0.05
POSITIVE LOGITS
plaque
0.08
agrees
0.07
%↵↵
0.07
fitting
0.07
missile
0.07
Missile
0.07
اض
0.06
起こ
0.06
annoyance
0.06
_probs
0.06
Activations Density 0.006%