INDEX
Explanations
instances of the word "de" in various contexts
New Auto-Interp
Negative Logits
e
-0.41
d
-0.41
n
-0.36
t
-0.35
m
-0.35
x
-0.33
c
-0.31
ν
-0.24
k
-0.24
g
-0.23
POSITIVE LOGITS
ei
0.24
iw
0.22
eo
0.22
ez
0.21
eam
0.21
ea
0.20
een
0.20
aq
0.20
ees
0.19
eq
0.19
Activations Density 0.109%