INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     szó
    -0.08
     effekt
    -0.07
     каж
    -0.07
     när
    -0.07
     fv
    -0.07
     seguido
    -0.07
    etros
    -0.07
    ავ
    -0.07
    iske
    -0.07
    êts
    -0.07
    POSITIVE LOGITS
    سه
    0.08
     जवाब
    0.08
    ount
    0.08
     unnecessarily
    0.08
     фай
    0.08
    chir
    0.08
     Brake
    0.08
     Bulls
    0.08
     Naw
    0.07
     استخدام
    0.07
    Act Density 0.001%

    No Known Activations