INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    birth
    -0.09
     आएको
    -0.08
     bedraagt
    -0.08
     лап
    -0.08
     hypo
    -0.08
    course
    -0.08
     aprobado
    -0.08
    -0.08
    เลือก
    -0.08
    บอล
    -0.07
    POSITIVE LOGITS
    fim
    0.09
     params
    0.08
     Fuck
    0.08
     pri
    0.08
     pimp
    0.07
     FUCK
    0.07
                                   
    0.07
     pooled
    0.07
     Fell
    0.07
     fim
    0.07
    Act Density 0.000%

    No Known Activations