INDEX
Negative Logits
Ee
-0.08
�
-0.08
στο
-0.07
낸
-0.07
-0.07
sic
-0.07
�
-0.07
구
-0.07
any
-0.07
contam
-0.07
POSITIVE LOGITS
genug
0.08
Enough
0.08
جدًا
0.08
glass
0.07
餐
0.07
-headed
0.07
demais
0.07
bins
0.07
榜
0.07
chóng
0.07
Activations Density 0.012%