INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     trop
    -0.08
     kump
    -0.08
    champ
    -0.08
     Meer
    -0.08
    协会
    -0.08
     Acid
    -0.08
     Noord
    -0.07
     мероприятия
    -0.07
     Mole
    -0.07
     ул
    -0.07
    POSITIVE LOGITS
     Var
    0.09
     ویژه
    0.08
    Var
    0.07
     fatty
    0.07
    gau
    0.07
    0.07
    rụ
    0.07
     dum
    0.07
    -même
    0.07
     suscept
    0.07
    Act Density 0.000%

    No Known Activations