INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     discrete
    -0.08
    sus
    -0.08
     dragging
    -0.08
    Discrete
    -0.08
     Sus
    -0.07
    igem
    -0.07
     temper
    -0.07
    <Color
    -0.07
     Schwarzen
    -0.07
    _zoom
    -0.07
    POSITIVE LOGITS
    0.08
    ountry
    0.08
    iver
    0.07
     Syr
    0.07
    Dream
    0.07
     hup
    0.07
     perse
    0.07
     ரூ
    0.07
     pait
    0.07
     networks
    0.07
    Act Density 0.001%

    No Known Activations