INDEX
Negative Logits
orro
-0.08
Zelda
-0.07
Feeling
-0.07
tuần
-0.07
precarious
-0.07
getP
-0.07
high
-0.07
perl
-0.07
OLL
-0.07
prepare
-0.07
POSITIVE LOGITS
ax
0.15
Ax
0.12
Ax
0.10
axe
0.10
Axe
0.10
AX
0.09
.ax
0.08
axiom
0.08
ax
0.07
_ax
0.07
Activations Density 0.004%