INDEX
Explanations
The neuron is effectively “dead” (it never activates on any tokens).
New Auto-Interp
Negative Logits
Navbar
-0.07
suf
-0.06
茂
-0.06
Dost
-0.06
化
-0.06
mont
-0.06
Meter
-0.06
VIC
-0.06
Bast
-0.06
암
-0.06
POSITIVE LOGITS
abis
0.07
角
0.07
rms
0.07
0
0.07
的一
0.06
.median
0.06
availability
0.06
attendance
0.06
sigmoid
0.06
收
0.06
Activations Density 0.000%