INDEX
Explanations
This neuron fires on tokens referring to still-image media (e.g. “picture,” “pics,” “photo”).
New Auto-Interp
Negative Logits
_sink
-0.07
Nazis
-0.07
ITT
-0.06
PlainOldData
-0.06
:length
-0.06
esehen
-0.06
موس
-0.06
الموس
-0.06
Doctor
-0.06
Usu
-0.06
POSITIVE LOGITS
вв
0.07
cer
0.07
aberr
0.07
Πλη
0.07
силь
0.07
回
0.07
起
0.07
photos
0.06
.jpeg
0.06
happy
0.06
Activations Density 0.100%