INDEX
Negative Logits
йому
-0.07
Ně
-0.06
_fake
-0.06
NES
-0.06
�
-0.06
-Ray
-0.06
oversees
-0.06
witnessed
-0.06
変
-0.06
irres
-0.06
POSITIVE LOGITS
�i
0.06
trav
0.06
endars
0.06
рок
0.06
fern
0.06
Každ
0.06
. ↵ ↵
0.06
erotisch
0.06
actually
0.06
Mir
0.06
Activations Density 0.001%