INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     O
    -0.07
     bottom
    -0.06
    Zen
    -0.06
    -Se
    -0.06
     pager
    -0.06
    ilder
    -0.06
     диви
    -0.06
     fly
    -0.06
     rg
    -0.06
     therm
    -0.06
    POSITIVE LOGITS
    al
    0.15
    AL
    0.15
    pal
    0.11
    als
    0.09
    ual
    0.09
    yal
    0.09
    val
    0.08
    nal
    0.08
    аль
    0.08
    ugal
    0.08
    Act Density 0.181%

    No Known Activations