INDEX
    Explanations

    code syntax

    New Auto-Interp
    Negative Logits
     Range
    -0.07
    20
    -0.06
     Sw
    -0.06
    18
    -0.06
     humble
    -0.06
     sampled
    -0.06
     awakening
    -0.06
    wk
    -0.06
    Max
    -0.06
    70
    -0.06
    POSITIVE LOGITS
    ces
    0.07
     Methods
    0.06
     aficion
    0.06
     Woj
    0.06
     laughing
    0.06
    .recipe
    0.06
     Мож
    0.06
    createElement
    0.06
    μερο
    0.06
     ini
    0.06
    Act Density 0.756%

    No Known Activations