INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     freedoms
    -0.08
    Fre
    -0.07
    PD
    -0.07
    Basics
    -0.07
    ([])↵
    -0.07
    -0.07
     PD
    -0.07
    VT
    -0.07
     memories
    -0.07
    -0.07
    POSITIVE LOGITS
     somewhere
    0.10
    quotelev
    0.10
    ҭа
    0.09
    ♀♀♀♀
    0.09
    olfo
    0.09
    entlicht
    0.09
    <|endofprompt|>
    0.09
    0.09
    ไหน
    0.09
     personalization
    0.09
    Act Density 0.010%

    No Known Activations