INDEX
Negative Logits
%'
-0.07
ี
-0.07
“And
-0.07
.%
-0.07
_%
-0.07
ένα
-0.06
+#
-0.06
_NT
-0.06
X
-0.06
_ARR
-0.06
POSITIVE LOGITS
(m
0.20
(p
0.18
(h
0.17
(g
0.16
(d
0.15
(v
0.14
(w
0.14
(c
0.13
(l
0.13
(j
0.12
Activations Density 0.043%
%'
ี
“And
.%
_%
ένα
+#
_NT
X
_ARR
(m
(p
(h
(g
(d
(v
(w
(c
(l
(j