INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     allegations
    -0.07
    _PC
    -0.07
     aine
    -0.07
     omissions
    -0.07
     அல்ல
    -0.07
     Smith
    -0.07
     Wood
    -0.07
     أعمال
    -0.07
     pc
    -0.06
     Dud
    -0.06
    POSITIVE LOGITS
     Questo
    0.08
    0.08
     Pourtant
    0.08
    ierter
    0.08
     battered
    0.08
    ಾಟ್
    0.08
     forehead
    0.08
    不过
    0.08
     vorbei
    0.08
    ored
    0.08
    Act Density 0.001%

    No Known Activations