INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Delete
    -0.07
     declines
    -0.07
     médico
    -0.07
    pływ
    -0.07
     órgão
    -0.07
     była
    -0.07
    ementia
    -0.07
     וכך
    -0.07
    ła
    -0.07
    Va
    -0.07
    POSITIVE LOGITS
     bunch
    0.07
     тыся
    0.07
     fighter
    0.07
    _bank
    0.07
    0.06
     עוב
    0.06
     tons
    0.06
     Beginner
    0.06
    0.06
     artificial
    0.06
    Act Density 0.003%

    No Known Activations