INDEX
    Explanations

    immune system

    New Auto-Interp
    Negative Logits
     acct
    -0.07
    本次活动
    -0.07
    _per
    -0.07
    _permissions
    -0.07
    满脸
    -0.06
    -0.06
    -0.06
    -cli
    -0.06
    .usermodel
    -0.06
     Rak
    -0.06
    POSITIVE LOGITS
    werp
    0.07
     journalistic
    0.07
     abandoning
    0.07
     debt
    0.06
     diploma
    0.06
     waste
    0.06
    ידי
    0.06
    onomy
    0.06
     buc
    0.06
    foil
    0.06
    Act Density 0.001%

    No Known Activations