INDEX
    Explanations

    foreign or non-english words

    New Auto-Interp
    Negative Logits
    надца
    1.20
    ~$
    1.12
     हज़ार
    1.12
    যজ্ঞ
    1.09
    ற்றிய
    1.04
    ս
    1.02
     целей
    1.02
    শিরোনাম
    1.00
    ленного
    0.97
     dispara
    0.97
    POSITIVE LOGITS
     g
    1.07
    اً
    1.05
    don
    1.05
     söz
    0.99
    wenn
    0.98
    ag
    0.98
     koji
    0.98
     bude
    0.98
     besta
    0.97
     Hitler
    0.97
    Act Density 0.001%

    No Known Activations