INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
↵
1.58
س
1.50
a
1.25
↵↵
1.16
u
1.15
b
1.14
↵↵↵
1.03
y
0.98
ka
0.95
to
0.95
POSITIVE LOGITS
of
1.12
های
1.05
τε
1.04
ные
1.03
ви
0.96
ја
0.96
ofu
0.91
ље
0.88
of
0.86
ਤ
0.85
Activations Density 0.000%