INDEX
Negative Logits
fore
-0.09
trans
-0.08
ACK
-0.08
Grö
-0.07
Hud
-0.07
HG
-0.07
tribal
-0.07
مو
-0.07
తో
-0.07
AD
-0.07
POSITIVE LOGITS
ed
0.08
(EXIT
0.08
пі
0.08
Lou
0.07
hypo
0.07
argu
0.07
.dj
0.07
Willy
0.07
impi
0.07
Dj
0.07
Activations Density 0.001%