INDEX
Negative Logits
transQ
-1.00
tvguidetime
-0.94
ſcher
-0.93
surla
-0.93
mpagne
-0.92
səhifə
-0.92
majánló
-0.91
ロウィン
-0.90
itsubishi
-0.90
IntoConstraints
-0.88
POSITIVE LOGITS
*
0.54
.
0.51
item
0.48
[toxicity=0]
0.46
<td>
0.45
cdot
0.43
:
0.43
<bos>
0.42
-
0.41
⦁
0.40
Activations Density 0.004%