INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ITEMIZED
    0.35
    有没有
    0.35
    KeepOriginal
    0.35
    有沒有
    0.33
     eens
    0.33
     Сколько
    0.32
     ക്രിക്ക
    0.32
    onna
    0.32
     निम्नलिखित
    0.32
    }=\{\
    0.32
    POSITIVE LOGITS
     why
    1.05
    why
    0.94
     WHY
    0.84
    Why
    0.84
    WHY
    0.82
     Why
    0.78
     почему
    0.73
    0.72
    なぜ
    0.68
    为什么
    0.66
    Act Density 0.019%

    No Known Activations