INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     afger
    -0.10
     afgesloten
    -0.09
    kode
    -0.08
    wartz
    -0.08
     eignen
    -0.08
     Meeting
    -0.08
     duurt
    -0.08
    တ်
    -0.08
     afloop
    -0.08
    Meeting
    -0.08
    POSITIVE LOGITS
     perdita
    0.10
     выпад
    0.09
     നഷ്ട
    0.09
     pérdida
    0.09
     loss
    0.09
     Testosterone
    0.09
     облы
    0.09
    Loss
    0.09
     perte
    0.09
     Loss
    0.09
    Act Density 0.009%

    No Known Activations