INDEX
    Explanations

    identifying is/is not statements

    New Auto-Interp
    Negative Logits
    ake
    0.41
    ulnerable
    0.40
    ung
    0.38
    adaan
    0.37
    0.36
    patterns
    0.35
    UNG
    0.35
    0.35
    लोगों
    0.35
    দল
    0.35
    POSITIVE LOGITS
     является
    0.49
     merupakan
    0.48
    使用的是
    0.47
     bukanlah
    0.47
    他是
    0.47
     являются
    0.46
    是一个
    0.46
     เป็น
    0.46
    她是
    0.45
    它是
    0.45
    Act Density 0.057%

    No Known Activations