INDEX
Negative Logits
θή
-0.07
přij
-0.06
moet
-0.06
Spor
-0.06
.secret
-0.06
_cl
-0.06
steals
-0.06
přid
-0.06
_WORD
-0.06
sondern
-0.06
POSITIVE LOGITS
ography
0.07
ライト
0.07
روس
0.06
')↵↵
0.06
freed
0.06
specifically
0.06
egal
0.06
้วย
0.06
english
0.06
ar
0.06
Activations Density 0.009%