INDEX
Negative Logits
Rov
-0.08
다
-0.08
विद
-0.08
Stra
-0.08
भय
-0.08
exposition
-0.07
사를
-0.07
strive
-0.07
Mell
-0.07
익
-0.07
POSITIVE LOGITS
ker
0.08
قابل
0.08
Mer
0.07
buster
0.07
لازم
0.07
knit
0.07
0.07
andar
0.07
aux
0.07
Simone
0.07
Activations Density 0.005%