INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     TEN
    -0.08
     STACK
    -0.07
    лей
    -0.07
    -0.07
     stro
    -0.07
    فجر
    -0.07
    sburgh
    -0.07
    -0.07
    isseur
    -0.07
    /authentication
    -0.07
    POSITIVE LOGITS
    -origin
    0.08
    ограм
    0.07
    קיב
    0.07
    ochrome
    0.07
    written
    0.07
    .coordinate
    0.07
    наци
    0.07
    疗法
    0.07
     실제
    0.07
    hil
    0.07
    Act Density 0.001%

    No Known Activations