INDEX
    Explanations

    even different languages

    New Auto-Interp
    Negative Logits
    achio
    0.42
    ře
    0.40
    hte
    0.38
    še
    0.37
     left
    0.36
    0.35
    ari
    0.35
    ണ്ണി
    0.35
    れた
    0.35
    ise
    0.34
    POSITIVE LOGITS
    甚至
    1.66
    甚至是
    1.57
     voire
    1.54
     bahkan
    1.39
    乃至
    1.38
     thậm
    1.28
     hatta
    1.28
     এমনকি
    1.20
     Bahkan
    1.12
     وحتى
    1.11
    Act Density 0.228%

    No Known Activations