INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _bullet
    -0.06
    -0.06
     XC
    -0.06
     patriotism
    -0.06
    ^.
    -0.06
     workplace
    -0.06
     yg
    -0.06
    .=
    -0.06
     ordinary
    -0.06
    _token
    -0.06
    POSITIVE LOGITS
    YOUR
    0.07
    ww
    0.07
    _D
    0.07
    INIT
    0.07
    你的
    0.06
    ,你
    0.06
    aler
    0.06
    ],&
    0.06
    ‌کند
    0.06
    (--
    0.06
    Act Density 0.076%

    No Known Activations