INDEX
Explanations
references to names or proper nouns
New Auto-Interp
Negative Logits
eq
-0.21
es
-0.19
ess
-0.18
esan
-0.18
iom
-0.17
ezi
-0.17
ett
-0.17
egl
-0.17
ez
-0.16
elly
-0.16
POSITIVE LOGITS
los
0.22
lop
0.21
loi
0.19
lok
0.18
tings
0.18
ld
0.18
loe
0.17
bert
0.17
ldata
0.17
ting
0.17
Activations Density 0.031%