INDEX
Negative Logits
-Württemberg
-0.09
granting
-0.08
فون
-0.08
iye
-0.08
EAST
-0.08
东方
-0.08
_BITS
-0.08
engr
-0.07
_grade
-0.07
dram
-0.07
POSITIVE LOGITS
Clap
0.08
很
0.07
减
0.07
0.07
nuestro
0.07
Crab
0.07
充分
0.07
umber
0.07
imine
0.07
rell
0.07
Activations Density 0.005%