INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     backlash
    -0.08
    -0.08
    ��
    -0.07
    osan
    -0.07
    mute
    -0.07
    装备
    -0.07
    étaires
    -0.07
    roadcast
    -0.07
    پاک
    -0.07
    消费
    -0.07
    POSITIVE LOGITS
     flirting
    0.08
     flirt
    0.08
     tonne
    0.08
     attitude
    0.08
     boasting
    0.08
     basis
    0.08
     Vs
    0.07
     secretion
    0.07
     IMP
    0.07
     feme
    0.07
    Act Density 0.002%

    No Known Activations