INDEX
Negative Logits
contradict
-0.08
Auto
-0.07
Bruce
-0.07
(block
-0.07
Что
-0.07
Luke
-0.07
("""↵-0.06
double
-0.06
ché
-0.06
quote
-0.06
POSITIVE LOGITS
in
0.12
IN
0.12
IN
0.10
-in
0.09
In
0.08
/in
0.08
.Win
0.08
In
0.08
in
0.08
,in
0.08
Activations Density 0.062%