INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Adjacent
    -0.07
     списка
    -0.06
    ikt
    -0.06
    让自己
    -0.06
    -0.06
     Colon
    -0.06
    caled
    -0.06
    -0.06
    -0.06
    -0.06
    POSITIVE LOGITS
     HIV
    0.07
     eliminates
    0.07
    0.07
     e
    0.07
    Interrupt
    0.07
     investigación
    0.06
    (piece
    0.06
    葡萄酒
    0.06
    万欧元
    0.06
    .assertFalse
    0.06
    Act Density 0.002%

    No Known Activations