INDEX
Negative Logits
arring
-0.08
idaire
-0.08
прым
-0.08
usión
-0.08
usion
-0.07
arar
-0.07
liction
-0.07
trian
-0.07
сю
-0.07
arrings
-0.07
POSITIVE LOGITS
أ
0.12
أنا
0.12
وء
0.11
ئت
0.10
ؤون
0.10
أت
0.09
ئين
0.09
ؤ
0.09
أة
0.09
كه
0.08
Activations Density 0.001%