INDEX
    Explanations

    asking for specific details

    New Auto-Interp
    Negative Logits
     Whether
    0.44
     whether
    0.44
     apakah
    0.41
    whether
    0.38
     WHETHER
    0.38
    Whether
    0.35
    是否
    0.34
     آیا
    0.32
     Apakah
    0.32
     DID
    0.31
    POSITIVE LOGITS
    是一些
    0.41
    是他
    0.39
     являются
    0.38
     distinguishes
    0.38
     specific
    0.37
    是你
    0.36
     merupakan
    0.35
     sorts
    0.35
     differentiates
    0.34
     असतात
    0.34
    Act Density 0.069%

    No Known Activations