INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ut
1.64
ت
1.51
it
1.36
ي
1.33
ED
1.31
uje
1.30
т
1.23
ن
1.20
ه
1.17
ir
1.16
POSITIVE LOGITS
ای
1.36
ために
1.27
ない
1.18
y
1.16
;
1.16
ﺘ
1.09
.]
1.08
ני
1.08
ている
1.07
てください
1.07
Activations Density 0.000%