INDEX
Explanations
pronouns
The neuron lights up on content words denoting actions—i.e. verbs.
New Auto-Interp
Negative Logits
する
-0.07
قرارد
-0.07
幹
-0.07
Metadata
-0.06
--,
-0.06
})↵↵↵
-0.06
.simps
-0.06
breeds
-0.06
dashes
-0.06
signatures
-0.06
POSITIVE LOGITS
mientras
0.07
bett
0.07
0.07
DU
0.07
paralle
0.07
getting
0.07
we
0.07
WF
0.06
issu
0.06
�
0.06
Activations Density 0.037%