INDEX
    Explanations

    proper nouns and abbreviations

    New Auto-Interp
    Negative Logits
    ח
    0.25
    ла
    0.23
    ק
    0.20
    ке
    0.20
    ро
    0.20
    ле
    0.19
    ین
    0.19
    ни
    0.18
    ர்
    0.18
    ون
    0.18
    POSITIVE LOGITS
     of
    0.29
     to
    0.26
     be
    0.24
     fácil
    0.23
     इस्तेमाल
    0.21
     của
    0.21
    0.21
     jeśli
    0.20
     बाद
    0.20
     än
    0.20
    Act Density 0.000%

    No Known Activations