INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _attack
    -0.06
    访问
    -0.06
     материал
    -0.06
    -0.06
     Kevin
    -0.05
     Consult
    -0.05
     setUser
    -0.05
     synonyms
    -0.05
    .setEditable
    -0.05
    editar
    -0.05
    POSITIVE LOGITS
     телеф
    0.07
    avern
    0.07
    -only
    0.07
     тисяч
    0.07
     satisfaction
    0.07
    rts
    0.07
    _SHA
    0.07
    яти
    0.07
     همچنین
    0.06
     LGBT
    0.06
    Act Density 0.000%

    No Known Activations