INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ک
1.77
in
1.52
are
1.33
ی
1.25
ется
1.20
ל
1.13
ছে
1.11
ী
1.10
י
1.09
ین
1.04
POSITIVE LOGITS
h
2.00
l
1.05
이었다
0.96
会自动
0.96
ної
0.95
上有
0.95
héro
0.95
就没有
0.94
↵
0.91
小
0.89
Activations Density 0.000%