INDEX
    Explanations

    People knowing/not knowing each other

    New Auto-Interp
    Negative Logits
    dehyde
    -0.07
    旅客
    -0.07
    ております
    -0.06
    NewProp
    -0.06
    -0.06
     nen
    -0.06
    -0.06
    思い
    -0.06
    ŷ
    -0.06
    ��
    -0.06
    POSITIVE LOGITS
     tecrübe
    0.07
     Sweet
    0.07
    .Show
    0.07
     concussion
    0.07
    جون
    0.07
     heart
    0.07
     scr
    0.07
    0.07
     miscar
    0.07
    怎么会
    0.06
    Act Density 0.059%

    No Known Activations