INDEX
Explanations
references to local history and cultural expressions
New Auto-Interp
Negative Logits
418
-0.15
fue
-0.15
(loop
-0.14
ison
-0.14
ald
-0.14
fdc
-0.14
ld
-0.14
gc
-0.13
fig
-0.13
sok
-0.13
POSITIVE LOGITS
arris
0.18
assen
0.17
mou
0.16
ÅĻev
0.16
Tre
0.15
devil
0.15
pog
0.15
tre
0.15
net
0.15
endon
0.15
Activations Density 0.006%