INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     global
    -0.07
     foe
    -0.07
    Global
    -0.06
    ظهر
    -0.06
     pager
    -0.06
     emphas
    -0.06
     Qi
    -0.06
    眼睛
    -0.06
    Opened
    -0.06
    .restore
    -0.06
    POSITIVE LOGITS
     Trojan
    0.08
    ault
    0.07
     }}
    ↵
    0.07
     devour
    0.07
    --)↵
    0.07
    /MPL
    0.07
    เสร
    0.06
    ерж
    0.06
    boards
    0.06
    }-
    0.06
    Act Density 0.065%

    No Known Activations