INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     WINDOW
    -0.07
    .agent
    -0.07
    AA
    -0.06
     PP
    -0.06
    _arr
    -0.06
     Curt
    -0.06
     beyaz
    -0.06
     Lar
    -0.06
    OLDER
    -0.06
     περ
    -0.06
    POSITIVE LOGITS
    0.13
    来的
    0.10
    力的
    0.09
    大的
    0.09
    出的
    0.09
    的人
    0.09
    样的
    0.08
    真的
    0.08
    0.08
    有的
    0.08
    Act Density 0.015%

    No Known Activations