INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    :-
    -0.08
     A
    -0.07
    ipes
    -0.07
    -spin
    -0.07
    :e
    -0.07
    :
    -0.06
     rins
    -0.06
    ’re
    -0.06
     yaw
    -0.06
    !?
    -0.06
    POSITIVE LOGITS
     haired
    0.07
     آمریک
    0.06
    结构
    0.06
    umo
    0.06
    liked
    0.06
     staffer
    0.06
    Secret
    0.06
    Understanding
    0.06
     '))↵
    0.06
     illusion
    0.06
    Act Density 0.380%

    No Known Activations