INDEX
    Explanations

    your request violates safety

    New Auto-Interp
    Negative Logits
    他们
    0.48
    他們
    0.46
     stupid
    0.41
     তারা
    0.41
     stupidity
    0.40
    arnya
    0.39
    身高
    0.39
    พวกเขา
    0.39
    ాలి
    0.38
     آن‌ها
    0.38
    POSITIVE LOGITS
     yourselves
    0.75
     yourself
    0.71
     Yourself
    0.69
    あなたは
    0.66
    ீர்கள்
    0.65
     तुम्ही
    0.64
     jste
    0.58
     మీరు
    0.58
    께서
    0.58
     நீங்கள்
    0.57
    Act Density 0.547%

    No Known Activations