INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     atent
    -0.08
     lembr
    -0.07
     Hes
    -0.07
     necessari
    -0.07
     willingness
    -0.07
     denen
    -0.07
    _ce
    -0.07
     Extraction
    -0.07
     outward
    -0.07
     hes
    -0.07
    POSITIVE LOGITS
    ansson
    0.08
    uded
    0.08
    nf
    0.08
    كن
    0.08
    0.07
    neu
    0.07
    istine
    0.07
    ركز
    0.07
    0.07
    -таки
    0.07
    Act Density 0.012%

    No Known Activations