INDEX
Explanations
The neuron activates on numeric literals—especially floating‐point numbers—in the text.
New Auto-Interp
Negative Logits
چه
-0.06
鉄
-0.06
もしれない
-0.06
principio
-0.06
BASE
-0.06
鐵
-0.06
ัสด
-0.06
peppers
-0.06
と
-0.06
svým
-0.06
POSITIVE LOGITS
рити
0.06
reins
0.06
Fraud
0.06
질
0.06
_docs
0.06
roster
0.06
Brit
0.06
boolean
0.06
low
0.06
seriously
0.06
Activations Density 0.000%