INDEX
    Explanations

    file extensions

    New Auto-Interp
    Negative Logits
    :
    -0.07
    ──
    -0.07
    (holder
    -0.07
    -0.07
    appropriate
    -0.07
    -0.07
    sample
    -0.06
    timer
    -0.06
    -0.06
    door
    -0.06
    POSITIVE LOGITS
    .H
    0.10
    .A
    0.10
    .G
    0.09
    .").
    0.09
    .")
    ↵
    0.09
    .C
    0.09
    .W
    0.09
    .J
    0.09
    .M
    0.08
    .^
    0.08
    Act Density 0.425%

    No Known Activations