INDEX
    Explanations

    The neuron is identifying when the model is discussing its own nature, limitations, or role as an AI language model.

    New Auto-Interp
    Negative Logits
    作为
    0.56
     作为
    0.46
    作為
    0.45
     jako
    0.44
    ಿತ್ತು
    0.44
    是一个
    0.42
    作为一个
    0.42
    将其
    0.42
     बतौर
    0.41
    是一位
    0.40
    POSITIVE LOGITS
     specializing
    0.51
     myself
    0.48
     objectivity
    0.46
     ovviamente
    0.45
     specialising
    0.45
     inhabiting
    0.44
     privilegi
    0.44
    ならでは
    0.42
    ณี
    0.41
     मुझे
    0.41
    Act Density 0.012%

    No Known Activations