INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Rhein
    -0.08
     Plata
    -0.07
     mejor
    -0.07
    -0.07
    _syn
    -0.07
     synch
    -0.07
     Petit
    -0.07
    syn
    -0.07
     standing
    -0.07
     δυνατό
    -0.06
    POSITIVE LOGITS
     tattoos
    0.10
     sexu
    0.10
     religion
    0.09
    违法
    0.09
    は禁止
    0.09
     మాత్రం
    0.09
     pornography
    0.09
    /problems
    0.08
     veto
    0.08
    -cig
    0.08
    Act Density 0.017%

    No Known Activations