INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     pelvis
    -0.09
    -0.08
     politicians
    -0.08
     permissions
    -0.08
     чуж
    -0.08
     pies
    -0.08
     apos
    -0.08
     dors
    -0.07
    ardless
    -0.07
    alon
    -0.07
    POSITIVE LOGITS
    Banner
    0.09
    标签
    0.08
    0.08
     caro
    0.08
    思想
    0.08
     themes
    0.08
    全面
    0.08
    专题
    0.08
    专项
    0.08
     fortalecer
    0.07
    Act Density 0.004%

    No Known Activations