INDEX
Explanations
access to resources or justice
New Auto-Interp
Negative Logits
ين
0.83
كل
0.82
لي
0.78
غير
0.77
سي
0.76
في
0.76
مي
0.75
يك
0.73
ودة
0.73
وري
0.73
POSITIVE LOGITS
a
1.17
to
1.15
on
1.07
ه
0.94
↵↵
0.93
u
0.93
i
0.93
d
0.90
Access
0.89
was
0.88
Activations Density 0.051%