INDEX
Negative Logits
욕
-0.06
حالت
-0.06
двер
-0.06
撤
-0.06
outfits
-0.06
گ
-0.06
قم
-0.06
_DONE
-0.06
mogelijk
-0.06
fence
-0.06
POSITIVE LOGITS
monoc
0.07
subtotal
0.07
ane
0.07
hci
0.07
izens
0.06
respond
0.06
ANE
0.06
elimin
0.06
bsub
0.06
答案
0.06
Activations Density 0.053%