INDEX
Explanations
repeated mentions of the name "Jones."
New Auto-Interp
Negative Logits
di
-0.58
Let
-0.58
As
-0.57
G
-0.56
<eos>
-0.54
-0.51
<
-0.51
J
-0.51
-0.50
In
-0.49
POSITIVE LOGITS
UserScript
0.81
ագրություններ
0.80
ViewFeatures
0.78
Situ
0.77
0.77
հղումներ
0.75
Спасылкі
0.73
fairest
0.73
beeswax
0.72
Projector
0.72
Activations Density 0.094%