INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     początk
    -0.08
    -transition
    -0.07
    лиц
    -0.07
    _toggle
    -0.07
     lanz
    -0.07
    芳香
    -0.06
    先行
    -0.06
    /stream
    -0.06
    重磅
    -0.06
    一看
    -0.06
    POSITIVE LOGITS
     CX
    0.07
     şiir
    0.07
     Hy
    0.07
    Cy
    0.07
     DP
    0.07
    iry
    0.06
    Cas
    0.06
    Row
    0.06
     dp
    0.06
     adap
    0.06
    Act Density 0.592%

    No Known Activations