INDEX
Explanations
strategic and historic contexts
New Auto-Interp
Negative Logits
A
1.81
L
1.49
B
1.48
S
1.48
al
1.42
J
1.40
U
1.37
F
1.34
(
1.34
T
1.33
POSITIVE LOGITS
ভাবে
1.01
ہ
0.95
یر
0.94
不去
0.94
య
0.94
সহ
0.91
没有
0.91
ak
0.90
a
0.89
ني
0.89
Activations Density 0.393%