INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     EG
    -0.09
     Shan
    -0.08
    -0.08
     ENG
    -0.07
    -0.07
     бор
    -0.07
     découvre
    -0.07
     AF
    -0.07
     sooner
    -0.07
     ENV
    -0.07
    POSITIVE LOGITS
    plus
    0.08
     izra
    0.08
     aver
    0.08
     obil
    0.08
     heroin
    0.08
    /by
    0.07
     Sauv
    0.07
     சொ
    0.07
     Сем
    0.07
    -là
    0.07
    Act Density 0.043%

    No Known Activations