INDEX
Negative Logits
angefangen
-0.08
cerv
-0.08
annoying
-0.08
637
-0.08
nub
-0.08
fcntl
-0.07
הש
-0.07
cay
-0.07
nő
-0.07
plings
-0.07
POSITIVE LOGITS
ुरी
0.08
юр
0.08
pherical
0.08
ocratic
0.08
credible
0.07
LO
0.07
pheric
0.07
_LO
0.07
وا
0.07
ėti
0.07
Activations Density 0.001%