INDEX
    Explanations

    encourages harmful behavior

    New Auto-Interp
    Negative Logits
     очень
    0.70
    Очень
    0.63
    你自己
    0.57
    がたくさん
    0.57
    しくて
    0.55
     żeby
    0.54
     nagyon
    0.53
     ძალიან
    0.53
     Очень
    0.52
     사람들이
    0.52
    POSITIVE LOGITS
     розгля
    0.49
     nascent
    0.46
     behest
    0.45
     versed
    0.44
    0.44
     peered
    0.43
     donned
    0.43
     glimps
    0.43
    albeit
    0.43
     bespoke
    0.43
    Act Density 0.091%

    No Known Activations