INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
K
0.73
G
0.69
R
0.64
M
0.63
J
0.61
B
0.58
Y
0.58
X
0.58
D
0.57
P
0.57
POSITIVE LOGITS
is
0.50
this
0.49
этом
0.48
是
0.47
\
0.46
\
0.45
ב
0.45
は
0.45
a
0.43
on
0.43
Activations Density 12.670%