INDEX
Explanations
The neuron activates on the French preposition “en” (i.e. occurrences of the token “en”).
New Auto-Interp
Negative Logits
-0.08
666
-0.08
circle
-0.07
rough
-0.07
tariff
-0.07
cycle
-0.07
brightest
-0.07
Marc
-0.07
çoğu
-0.07
POSIT
-0.07
POSITIVE LOGITS
EN
0.09
En
0.09
EL
0.09
en
0.09
(en
0.08
EN
0.08
Ensemble
0.08
ENT
0.08
En
0.08
_end
0.08
Activations Density 0.063%