INDEX
Explanations
common phrases or words in multiple languages, indicating multilingual content
New Auto-Interp
Negative Logits
الإسلامية
-0.93
الفلسطينية
-0.79
الأخيرة
-0.79
السياسية
-0.76
الداخلية
-0.76
المالية
-0.74
propOrder
-0.73
الدولية
-0.72
الشخصية
-0.71
الجديدة
-0.71
POSITIVE LOGITS
ال
1.58
המ
1.55
الم
1.51
الأ
1.48
الم
1.39
הה
1.37
الت
1.34
الس
1.26
الأ
1.26
وال
1.25
Activations Density 0.012%