INDEX
Explanations
Filler words
The neuron never activates—it does not respond to any tokens.
New Auto-Interp
Negative Logits
ITER
-0.06
iliate
-0.06
TVs
-0.06
Guy
-0.06
hers
-0.06
erfolgre
-0.06
dın
-0.06
ZN
-0.06
heute
-0.06
Shop
-0.06
POSITIVE LOGITS
-groups
0.07
}; ↵
0.07
.ant
0.07
/themes
0.06
گروه
0.06
แท
0.06
standout
0.06
_CART
0.06
З
0.06
ima
0.06
Activations Density 0.020%