INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    еп
    -0.07
     Fireplace
    -0.06
    bx
    -0.06
     Bronx
    -0.06
    ftype
    -0.06
    -0.06
    이슈
    -0.06
    спіль
    -0.06
     rien
    -0.06
     cons
    -0.06
    POSITIVE LOGITS
    lal
    0.07
    iting
    0.07
    _FINAL
    0.06
    .al
    0.06
     Vulner
    0.06
    0.06
    etag
    0.06
    0.06
    __));↵
    0.06
    :semicolon
    0.06
    Act Density 0.001%

    No Known Activations