INDEX
Explanations
The neuron activates on floating‐point number tokens.
New Auto-Interp
Negative Logits
Мед
-0.07
oneself
-0.07
RAID
-0.07
Memo
-0.06
intern
-0.06
�
-0.06
Hang
-0.06
telefone
-0.06
IID
-0.06
لب
-0.06
POSITIVE LOGITS
deltaX
0.06
_global
0.06
ziej
0.06
kových
0.06
bean
0.06
ступ
0.06
ximity
0.06
.jsx
0.06
тр
0.06
setw
0.06
Activations Density 0.035%