INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Ladies
    -0.07
    تعاون
    -0.07
     Perez
    -0.07
    -0.07
    -0.06
    -0.06
    ef
    -0.06
    连线
    -0.06
    tri
    -0.06
     Sanford
    -0.06
    POSITIVE LOGITS
    itioner
    0.07
    ложение
    0.07
     disagreed
    0.07
    מון
    0.06
    emy
    0.06
     morally
    0.06
     damages
    0.06
    סות
    0.06
    гляд
    0.06
    0.06
    Act Density 0.018%

    No Known Activations