INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     debates
    -0.07
    -0.07
     Jaguar
    -0.07
    💏
    -0.07
     Highlands
    -0.07
    赞成
    -0.07
    -0.07
     Op
    -0.07
     cong
    -0.07
    .room
    -0.07
    POSITIVE LOGITS
    0.07
    my
    0.07
    initialize
    0.06
    filtr
    0.06
    _PM
    0.06
    0.06
    групп
    0.06
    UFFIX
    0.06
    时许
    0.06
    ousel
    0.06
    Act Density 0.001%

    No Known Activations