INDEX
Explanations
The neuron responds to the phrase “series of.”
New Auto-Interp
Negative Logits
ont
-0.07
bett
-0.07
indicator
-0.07
території
-0.06
ADHD
-0.06
elems
-0.06
allocation
-0.06
not
-0.06
(prediction
-0.06
’ve
-0.06
POSITIVE LOGITS
органів
0.07
.getRow
0.07
Forms
0.07
الناس
0.07
ousand
0.07
servo
0.07
خط
0.06
through
0.06
.Sys
0.06
_unref
0.06
Activations Density 0.008%