INDEX
Negative Logits
discontinue
-0.09
liers
-0.09
сентября
-0.08
viens
-0.08
.dispose
-0.08
-в
-0.08
дни
-0.08
явля
-0.08
February
-0.08
fevereiro
-0.08
POSITIVE LOGITS
relatable
0.08
pron
0.08
illustrative
0.08
的话
0.08
shi
0.08
empathy
0.08
narr
0.07
الروا
0.07
uc
0.07
novels
0.07
Activations Density 0.012%