INDEX
Negative Logits
卻
-0.07
mostly
-0.07
mostly
-0.07
неп
-0.06
probl
-0.06
coraz
-0.06
]}"↵
-0.06
LPARAM
-0.06
نق
-0.06
else
-0.06
POSITIVE LOGITS
-translate
0.07
aban
0.06
fab
0.06
Mohammed
0.06
Kew
0.06
สะ
0.06
od
0.06
unemployed
0.06
arda
0.06
abo
0.06
Activations Density 0.005%