INDEX
Explanations
indicating comparison or continuation
New Auto-Interp
Negative Logits
e
0.72
C
0.70
y
0.69
s
0.66
o
0.60
all
0.59
and
0.55
ill
0.55
it
0.54
per
0.53
POSITIVE LOGITS
。
0.78
。,
0.66
。"
0.65
0
0.61
)。
0.61
。",
0.60
。</
0.60
。「
0.59
"。
0.58
聁
0.58
Activations Density 0.000%