INDEX
Negative Logits
it
-0.08
bowel
-0.07
social
-0.07
seudo
-0.07
expl
-0.07
Shield
-0.06
It
-0.06
goes
-0.06
these
-0.06
ين
-0.06
POSITIVE LOGITS
громад
0.07
HEMA
0.07
Ξ
0.06
высокой
0.06
postId
0.06
_aligned
0.06
_cat
0.06
érc
0.06
===============
0.06
environments
0.06
Activations Density 0.101%