INDEX
Explanations
factors leading to outcomes
New Auto-Interp
Negative Logits
(
0.29
،
0.25
(
0.24
("0.23
(“
0.23
(«
0.23
།
0.22
,(
0.22
:
0.21
۔
0.21
POSITIVE LOGITS
in
0.28
that
0.23
in
0.23
on
0.21
that
0.21
которые
0.21
在
0.21
as
0.21
ที่
0.20
with
0.19
Activations Density 0.372%