INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     provozu
    -0.08
    dw
    -0.07
    $page
    -0.07
     suppression
    -0.07
    empo
    -0.07
     rede
    -0.07
    χ
    -0.07
     memb
    -0.07
     Cone
    -0.07
    kw
    -0.07
    POSITIVE LOGITS
    !
    0.08
    так
    0.07
    olina
    0.07
    after
    0.07
     Always
    0.07
    最后
    0.07
    Fact
    0.07
    ml
    0.07
    При
    0.06
    .ic
    0.06
    Act Density 0.024%

    No Known Activations