INDEX
    Explanations

    Personal pronouns

    New Auto-Interp
    Negative Logits
     Але
    -0.07
    --,
    -0.06
     harming
    -0.06
    erty
    -0.06
     Get
    -0.06
    Artifact
    -0.06
     discussions
    -0.06
    .Try
    -0.06
    され
    -0.06
    reflect
    -0.06
    POSITIVE LOGITS
     Oversight
    0.07
     lebih
    0.07
     shown
    0.07
     شرایط
    0.07
     خوبی
    0.07
     Sharia
    0.07
     divine
    0.06
     жизнь
    0.06
    unci
    0.06
     visas
    0.06
    Act Density 0.017%

    No Known Activations