INDEX
Explanations
This neuron activates on personal names (capitalized proper names of individuals).
New Auto-Interp
Negative Logits
Brut
-0.07
からの
-0.07
-choice
-0.06
呀
-0.06
请选择
-0.06
่าน
-0.06
,double
-0.06
самост
-0.06
�
-0.06
уже
-0.06
POSITIVE LOGITS
Si
0.07
vers
0.06
JACK
0.06
strategist
0.06
–
0.06
fred
0.06
göster
0.06
uniqu
0.06
فرودگاه
0.06
key
0.06
Activations Density 0.072%