INDEX
    Explanations

    strong adjectives describing concepts

    New Auto-Interp
    Negative Logits
    ましたが
    0.31
    लेकिन
    0.30
     Nhưng
    0.30
    但在
    0.30
    But
    0.29
    이지만
    0.29
     있지만
    0.29
    でしたが
    0.29
     けど
    0.28
     mutta
    0.28
    POSITIVE LOGITS
     anden
    0.29
     CPP
    0.27
     heeft
    0.26
     Informe
    0.26
     al
    0.26
     এবং
    0.26
     asupra
    0.26
     HID
    0.25
     izin
    0.25
     aline
    0.24
    Act Density 0.149%

    No Known Activations