INDEX
    Explanations

    writing, describing, showing harmful content

    New Auto-Interp
    Negative Logits
     নিরাপত্তা
    0.40
     пункт
    0.39
     ರೀತಿಯ
    0.39
    ಥವಾ
    0.38
     конди
    0.38
     бе
    0.38
     кон
    0.38
    த்
    0.38
     funding
    0.38
    0.38
    POSITIVE LOGITS
    '
    0.49
    this
    0.44
    <0xB6>
    0.44
    ämän
    0.44
    もちろん
    0.43
    Ô
    0.41
    '...
    0.40
     هذه
    0.40
     duyg
    0.40
    ”—
    0.40
    Act Density 0.077%

    No Known Activations