INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    før
    -0.09
     gerek
    -0.08
     Evo
    -0.08
     surplus
    -0.07
     Interviews
    -0.07
     Tok
    -0.07
    tn
    -0.07
     Ler
    -0.07
    odo
    -0.07
    gett
    -0.07
    POSITIVE LOGITS
     dàng
    0.09
    0.08
    0.08
     Autob
    0.07
    ที่จะ
    0.07
     transcend
    0.07
     বিষ
    0.07
    eway
    0.07
    বার
    0.07
     degrade
    0.07
    Act Density 0.005%

    No Known Activations