INDEX
Negative Logits
className
-0.08
euro
-0.07
_cb
-0.07
.kr
-0.07
%↵↵
-0.07
ì
-0.07
-extra
-0.07
枚
-0.06
'}';↵
-0.06
โซ
-0.06
POSITIVE LOGITS
北美
0.07
pornofil
0.07
arbeit
0.07
hare
0.07
SCORE
0.07
loading
0.06
prostitutes
0.06
填报
0.06
nood
0.06
teaches
0.06
Activations Density 0.017%