INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ει
2.63
та
2.14
ты
2.11
ι
2.06
ية
2.02
ਉ
2.02
те
2.00
ä
1.95
ﯽ
1.95
ą
1.93
POSITIVE LOGITS
س
2.75
سلم
2.19
een
2.02
and
1.89
ق
1.80
تج
1.79
تس
1.78
سل
1.77
ج
1.77
s
1.72
Activations Density 0.089%