INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    近两年
    -0.09
     ['
    -0.07
     ["
    -0.07
     criticism
    -0.07
    有没有
    -0.07
    -0.06
    indsay
    -0.06
    -0.06
     Really
    -0.06
     לקראת
    -0.06
    POSITIVE LOGITS
    e
    0.13
    i
    0.12
    o
    0.12
    s
    0.11
    u
    0.11
    a
    0.10
    а
    0.10
    er
    0.10
    n
    0.10
    t
    0.09
    Act Density 2.015%

    No Known Activations