INDEX
Explanations
This neuron activates on numerical tokens (digits or numbers) in math-problem text.
New Auto-Interp
Negative Logits
Harold
-0.08
<->
-0.08
dram
-0.06
Floating
-0.06
Init
-0.06
signal
-0.06
Drama
-0.06
สำค
-0.06
Traversal
-0.06
Woj
-0.06
POSITIVE LOGITS
’une
0.07
パン
0.07
π
0.06
IFDEF
0.06
/controllers
0.06
曜日
0.06
rientation
0.06
↓
0.06
wollen
0.06
_NUMBER
0.06
Activations Density 0.016%