INDEX
Explanations
This neuron detects the Japanese polite potential construction “~ことができます” (expressions of “can/able to”).
New Auto-Interp
Negative Logits
Rug
-0.07
smarter
-0.06
beta
-0.06
Ajax
-0.06
jc
-0.06
Sour
-0.06
mua
-0.06
"f
-0.06
Submission
-0.06
Sne
-0.06
POSITIVE LOGITS
ことが
0.12
ことは
0.09
ことも
0.09
こと
0.07
的に
0.07
ofilm
0.07
クロ
0.07
것으로
0.07
krát
0.07
Bağ
0.07
Activations Density 0.004%