INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     instability
    -0.07
    }
    ↵
    ↵
    -0.06
    ватися
    -0.06
     ورز
    -0.06
    ونية
    -0.06
     nighttime
    -0.06
    -------------
    -0.06
    _choose
    -0.06
     окрем
    -0.06
    POSITIVE LOGITS
    class
    0.07
    avers
    0.06
    			
    0.06
     film
    0.06
     poz
    0.06
     cls
    0.06
    Apollo
    0.06
    enum
    0.06
    alc
    0.06
     class
    0.06
    Act Density 0.003%

    No Known Activations