INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    BUG
    -0.08
    imleri
    -0.07
     personalities
    -0.07
    -0.07
    CY
    -0.07
    ندو
    -0.07
    ynn
    -0.07
     scammers
    -0.07
    953
    -0.07
    NR
    -0.07
    POSITIVE LOGITS
     pel
    0.08
    0.08
     lawa
    0.08
     \<
    0.08
     Hasan
    0.07
    Elm
    0.07
     bằng
    0.07
     honden
    0.07
     Pom
    0.07
    0.07
    Act Density 0.004%

    No Known Activations