INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     תפ
    -0.07
    -0.07
    -0.07
    -0.07
    不具备
    -0.07
     stav
    -0.06
     httpResponse
    -0.06
    Isn
    -0.06
    -0.06
    -0.06
    POSITIVE LOGITS
     powder
    0.07
    水中
    0.07
     rue
    0.07
    Vote
    0.07
     oblig
    0.07
    _ENCOD
    0.07
     sujet
    0.07
    .pay
    0.07
     kidneys
    0.06
    perform
    0.06
    Act Density 0.003%

    No Known Activations