INDEX
Explanations
Codes or names
This neuron fires on placeholder name tokens (e.g. “NAME_1,” “NAME_2,” “NAME_3,” etc.).
New Auto-Interp
Negative Logits
Cooling
-0.07
kidneys
-0.07
Fort
-0.07
Sh
-0.07
šení
-0.07
/components
-0.07
lení
-0.06
retrieval
-0.06
tolerant
-0.06
열
-0.06
POSITIVE LOGITS
ouz
0.06
learn
0.06
Там
0.06
Authors
0.06
ori
0.06
двух
0.06
přitom
0.06
,callback
0.06
преж
0.06
.char
0.06
Activations Density 0.044%