INDEX
Negative Logits
.comments
-0.08
ся
-0.07
(_)
-0.07
sic
-0.07
絕
-0.07
수
-0.07
Fed
-0.07
མ
-0.07
Jonathan
-0.07
();)
-0.07
POSITIVE LOGITS
>R
0.08
מאחורי
0.07
掮
0.07
bothering
0.07
akening
0.07
岘
0.07
bored
0.07
老板
0.07
organized
0.07
kleinen
0.07
Activations Density 0.003%