INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     которой
    -0.07
    -0.07
     нею
    -0.07
    -link
    -0.07
     졸업
    -0.07
    是在
    -0.07
     تأ
    -0.06
    شاه
    -0.06
     спост
    -0.06
    abric
    -0.06
    POSITIVE LOGITS
    ATA
    0.06
    LANG
    0.06
     Pumpkin
    0.06
    .program
    0.06
     Lev
    0.06
    ann
    0.06
     ceil
    0.06
    .xx
    0.06
     Photon
    0.06
    NEWS
    0.06
    Act Density 0.001%

    No Known Activations