INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
لی
1.32
ה
1.13
จะ
1.05
باید
1.05
ای
1.02
یک
1.02
С
0.99
↵↵
0.98
دی
0.98
ین
0.97
POSITIVE LOGITS
n
1.37
ни
1.28
ný
1.14
да
1.11
ным
1.11
ni
1.10
с
1.07
:
1.05
1
1.05
м
1.02
Activations Density 0.000%