INDEX
Explanations
AI self-description
The neuron is identifying when the model is discussing its own nature, limitations, or role as an AI language model.
New Auto-Interp
Negative Logits
作为
0.56
作为
0.46
作為
0.45
jako
0.44
ಿತ್ತು
0.44
是一个
0.42
作为一个
0.42
将其
0.42
बतौर
0.41
是一位
0.40
POSITIVE LOGITS
specializing
0.51
myself
0.48
objectivity
0.46
ovviamente
0.45
specialising
0.45
inhabiting
0.44
privilegi
0.44
ならでは
0.42
ณี
0.41
मुझे
0.41
Activations Density 0.012%