INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Termin
    -0.08
     több
    -0.08
     النز
    -0.07
     errno
    -0.07
    Orth
    -0.07
     dosta
    -0.07
     checklist
    -0.07
     kezelés
    -0.07
     വേണ്ടി
    -0.07
     antih
    -0.07
    POSITIVE LOGITS
     Vish
    0.08
    абил
    0.08
    walls
    0.08
     Gates
    0.08
    bola
    0.08
     borg
    0.08
     amare
    0.08
    adino
    0.08
     Samurai
    0.08
     Vinci
    0.08
    Act Density 0.003%

    No Known Activations