INDEX
Negative Logits
-margin
-0.07
.finish
-0.06
piece
-0.06
牧
-0.06
.component
-0.06
.ant
-0.06
lém
-0.06
ウェ
-0.06
Popular
-0.06
يك
-0.06
POSITIVE LOGITS
executable
0.07
언어
0.07
VER
0.06
(box
0.06
학교
0.06
Nebraska
0.06
ografia
0.06
šest
0.06
Working
0.06
frase
0.06
Activations Density 0.007%