INDEX
Negative Logits
Cesar
-0.08
gnc
-0.08
שה
-0.08
tty
-0.07
Nijmegen
-0.07
kosher
-0.07
avión
-0.07
vegetarian
-0.07
z
-0.07
نه
-0.07
POSITIVE LOGITS
影响
0.09
处罚
0.08
except
0.08
whereas
0.08
derrière
0.08
while
0.07
作用
0.07
уль
0.07
excuse
0.07
penal
0.07
Activations Density 0.019%