INDEX
Negative Logits
גד
-0.09
месяц
-0.09
.window
-0.09
tumblr
-0.09
-0.08
огром
-0.08
музей
-0.08
森林
-0.08
')['
-0.08
фт
-0.08
POSITIVE LOGITS
deceive
0.08
mis
0.08
偷
0.08
emiss
0.08
misleading
0.08
Mis
0.07
Mis
0.07
नया
0.07
_mar
0.07
AI
0.07
Activations Density 0.002%