INDEX
Negative Logits
ID
-0.08
engine
-0.07
ัฐบาล
-0.07
itere
-0.07
Ь
-0.07
YT
-0.07
GC
-0.07
eing
-0.07
ucle
-0.06
(DIR
-0.06
POSITIVE LOGITS
/ay
0.06
Zack
0.06
удал
0.06
商
0.06
кості
0.06
풍
0.06
✔
0.06
UserName
0.05
authors
0.05
textu
0.05
Activations Density 0.078%