INDEX
Explanations
The neuron selectively fires on Russian adjectives (i.e. words with adjective‐type endings).
New Auto-Interp
Negative Logits
ume
-0.08
Fe
-0.07
.compose
-0.07
de
-0.07
DE
-0.07
Je
-0.07
796
-0.07
ke
-0.06
Yue
-0.06
SCE
-0.06
POSITIVE LOGITS
ный
0.08
_any
0.08
одной
0.08
ой
0.07
¤¤
0.07
щий
0.07
responder
0.07
ий
0.07
Checker
0.07
サイ
0.07
Activations Density 0.078%