INDEX
Negative Logits
フト
-0.08
البر
-0.08
落实
-0.08
بر
-0.08
उत
-0.07
不足
-0.07
przec
-0.07
щина
-0.07
אויך
-0.07
linewidth
-0.07
POSITIVE LOGITS
whining
0.08
Angry
0.07
nisse
0.07
žno
0.07
delas
0.07
Piazza
0.07
Cub
0.07
Iraq
0.07
mi
0.07
innovative
0.07
Activations Density 0.000%