INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     punches
    -0.07
    uger
    -0.07
    &oacute
    -0.07
    ъем
    -0.07
    にする
    -0.06
     radians
    -0.06
     Česká
    -0.06
     sexe
    -0.06
    ریب
    -0.06
    -0.06
    POSITIVE LOGITS
     deaf
    0.12
    .family
    0.07
    Dear
    0.07
     graffiti
    0.06
     Soft
    0.06
    со
    0.06
    af
    0.06
     autism
    0.06
     Is
    0.06
     Readers
    0.06
    Act Density 0.001%

    No Known Activations