INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cour
    -0.07
     dune
    -0.07
     verbose
    -0.07
     ****************************************************************
    -0.07
     Error
    -0.07
     escal
    -0.07
     swallow
    -0.07
     vano
    -0.07
     Raven
    -0.07
    cció
    -0.07
    POSITIVE LOGITS
    Aj
    0.08
     unk
    0.07
    0.07
    Cook
    0.07
    Et
    0.07
     unf
    0.07
    ajia
    0.07
     aj
    0.07
     пут
    0.07
    Umb
    0.07
    Act Density 0.002%

    No Known Activations