INDEX
Negative Logits
bewer
-0.09
WHO
-0.08
bahagi
-0.08
autrement
-0.08
אלא
-0.08
لیکن
-0.08
ഭാഗമായി
-0.08
graag
-0.08
بغیر
-0.08
العم
-0.08
POSITIVE LOGITS
Indeed
0.08
�
0.08
Explanation
0.08
�
0.08
Correct
0.08
ployed
0.07
75
0.07
Nec
0.07
fluent
0.07
Explanation
0.07
Activations Density 0.167%