INDEX
Negative Logits
allegations
-0.07
_PC
-0.07
aine
-0.07
omissions
-0.07
அல்ல
-0.07
Smith
-0.07
Wood
-0.07
أعمال
-0.07
pc
-0.06
Dud
-0.06
POSITIVE LOGITS
Questo
0.08
靠
0.08
Pourtant
0.08
ierter
0.08
battered
0.08
ಾಟ್
0.08
forehead
0.08
不过
0.08
vorbei
0.08
ored
0.08
Activations Density 0.001%