INDEX
Explanations
This neuron never activates—it doesn’t respond to any token.
New Auto-Interp
Negative Logits
mark
-0.08
Tek
-0.07
ụp
-0.07
mashed
-0.07
.Simple
-0.07
Heating
-0.07
ruined
-0.07
nicknamed
-0.06
Jud
-0.06
dziew
-0.06
POSITIVE LOGITS
náv
0.06
imální
0.06
rozhodnutí
0.06
unic
0.06
.Merge
0.06
ostatní
0.06
大學
0.06
.GetById
0.06
Files
0.06
_BAL
0.06
Activations Density 0.152%