INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    男性
    -0.09
     indicated
    -0.08
    ohan
    -0.08
     Facing
    -0.08
     males
    -0.07
     couples
    -0.07
     intéress
    -0.07
     portrayed
    -0.07
    Port
    -0.07
    indi
    -0.07
    POSITIVE LOGITS
     мех
    0.08
    PRODUCT
    0.08
    jumlah
    0.08
     vene
    0.08
    VERS
    0.08
    QUE
    0.08
     foil
    0.08
    _PRODUCT
    0.08
    VN
    0.08
     уш
    0.07
    Act Density 0.067%

    No Known Activations