INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     багатьох
    -0.07
     gradients
    -0.06
    -прав
    -0.06
    -0.06
    оком
    -0.06
     grat
    -0.06
    -0.06
     overwhelm
    -0.06
    esin
    -0.06
    -negative
    -0.06
    POSITIVE LOGITS
    :user
    0.07
    (b
    0.06
    _DOUBLE
    0.06
    (stypy
    0.06
     á
    0.06
     dq
    0.06
     equipe
    0.06
     Rhe
    0.06
    0.06
     lname
    0.05
    Act Density 0.009%

    No Known Activations