INDEX
Negative Logits
,
0.72
0.69
-
0.55
H
0.52
.
0.50
'
0.50
F
0.49
...
0.48
in
0.48
Man
0.48
POSITIVE LOGITS
<unused646>
0.59
<unused1142>
0.58
<unused289>
0.57
<unused579>
0.56
<unused169>
0.55
þat
0.55
<unused581>
0.55
<unused619>
0.55
<unused477>
0.55
<unused481>
0.54
Activations Density 0.000%