INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    targets
    -0.09
    -0.07
    -0.07
     שהם
    -0.07
    他是
    -0.07
    -0.07
    úng
    -0.07
    oration
    -0.07
     beauty
    -0.07
    ross
    -0.07
    POSITIVE LOGITS
    月经
    0.08
     politely
    0.07
    公积金
    0.07
     NPC
    0.07
    0.07
     Kelvin
    0.07
     Como
    0.07
     jquery
    0.07
    Email
    0.07
     Jeśli
    0.07
    Act Density 0.104%

    No Known Activations