INDEX
    Explanations

    future tense/modality

    New Auto-Interp
    Negative Logits
    sst
    -0.08
     dret
    -0.08
    发挥
    -0.08
    lado
    -0.08
     ṣiṣẹ
    -0.08
     grav
    -0.07
     recurr
    -0.07
     пог
    -0.07
    /o
    -0.07
     pole
    -0.07
    POSITIVE LOGITS
     কি
    0.11
    n't
    0.09
     ли
    0.08
     कोई
    0.08
    有没有
    0.08
     twist
    0.07
    ٌ
    0.07
     क्या
    0.07
    是不是
    0.07
    _training
    0.07
    Act Density 0.094%

    No Known Activations