INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
s
1.76
ra
1.73
p
1.68
el
1.56
le
1.53
a
1.52
ing
1.47
(
1.43
al
1.39
x
1.34
POSITIVE LOGITS
ین
1.41
ி
1.23
میکند
1.14
فونبټ
1.12
میشود
1.09
میکن
1.09
бесплат
1.08
بیاکت
1.08
dır
1.07
ામ
1.05
Activations Density 0.000%