INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    حن
    -0.08
     Arthur
    -0.08
     felizes
    -0.08
     CNS
    -0.07
    سبة
    -0.07
     Lan
    -0.07
     felices
    -0.07
     cheers
    -0.07
    לח
    -0.07
    ிச்ச
    -0.07
    POSITIVE LOGITS
     asupra
    0.09
    dita
    0.09
     terhadap
    0.09
    fum
    0.08
     вак
    0.08
     над
    0.08
     newborn
    0.08
     inmueble
    0.08
     varer
    0.08
     Jesu
    0.08
    Act Density 0.242%

    No Known Activations