INDEX
Negative Logits
zale
-0.08
-Up
-0.08
bye
-0.08
ench
-0.07
'accord
-0.07
小说
-0.07
religieux
-0.07
ok
-0.07
male
-0.07
Э
-0.07
POSITIVE LOGITS
नुकसान
0.08
چې
0.08
ที่จะ
0.08
confidentiality
0.08
Dodgers
0.07
mistakes
0.07
Ort
0.07
نق
0.07
AED
0.07
stigma
0.07
Activations Density 0.024%