INDEX
Negative Logits
delusions
0.48
们
0.47
podido
0.47
簡単な
0.47
verstehen
0.47
misconceptions
0.47
thawed
0.47
pests
0.46
されない
0.46
牥
0.46
POSITIVE LOGITS
b
0.63
which
0.57
m
0.57
in
0.54
g
0.52
ʿ
0.52
なども
0.52
d
0.50
<i>
0.49
to
0.49
Activations Density 0.011%