INDEX
Negative Logits
בנו
-0.07
헝
-0.07
vir
-0.07
铻
-0.07
Mul
-0.06
Halifax
-0.06
킅
-0.06
officer
-0.06
的地位
-0.06
القر
-0.06
POSITIVE LOGITS
adoption
0.07
shocks
0.07
ヽ
0.07
bons
0.06
ECH
0.06
ﺷ
0.06
scholarship
0.06
틸
0.06
{[0.06
temperature
0.06
Activations Density 0.116%