INDEX
Explanations
The neuron strongly activates on standalone numeric answer tokens (in particular “0” and “1”).
New Auto-Interp
Negative Logits
circulation
-0.07
bekommen
-0.07
रत
-0.07
bekom
-0.07
�ん
-0.06
Subject
-0.06
qn
-0.06
업체
-0.06
Maur
-0.06
ースト
-0.06
POSITIVE LOGITS
adec
0.06
Trip
0.06
veces
0.06
電子
0.06
fertil
0.06
inj
0.06
struggled
0.06
.getInputStream
0.06
علاق
0.06
lingu
0.06
Activations Density 0.005%