INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    323
    -0.08
    388
    -0.07
    288
    -0.07
     لباس
    -0.07
     uppercase
    -0.07
     Lace
    -0.07
    343
    -0.07
    .large
    -0.07
     Lux
    -0.07
    320
    -0.07
    POSITIVE LOGITS
     sn
    0.14
     Sn
    0.14
     SN
    0.12
    sn
    0.12
    Sn
    0.12
    SN
    0.11
    .sn
    0.10
    (sn
    0.10
     Sne
    0.10
     snakes
    0.09
    Act Density 0.024%

    No Known Activations