INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    akash
    -0.07
     Prepared
    -0.07
     advocate
    -0.07
     LEG
    -0.06
     самого
    -0.06
     bezpieczeńst
    -0.06
    ello
    -0.06
    kom
    -0.06
    בינו
    -0.06
    А
    -0.06
    POSITIVE LOGITS
    0.07
    -faced
    0.07
    一看
    0.07
    0.07
     פר
    0.06
     sat
    0.06
    0.06
     stormed
    0.06
    ques
    0.06
     eyebrows
    0.06
    Act Density 0.002%

    No Known Activations