INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     mal
    -0.08
    vx
    -0.07
     einmal
    -0.06
    .un
    -0.06
     afraid
    -0.06
     svc
    -0.06
    oba
    -0.06
    _radius
    -0.06
     tc
    -0.06
    _env
    -0.06
    POSITIVE LOGITS
    档案
    0.08
    wig
    0.07
    כיו
    0.07
    0.07
    0.07
    ציון
    0.07
    Trim
    0.07
     reclaimed
    0.07
    中共
    0.07
     Quad
    0.07
    Act Density 0.007%

    No Known Activations