INDEX
    Explanations

    request for

    New Auto-Interp
    Negative Logits
    ,
    -0.09
    :
    -0.08
    'end
    -0.08
     Bol
    -0.08
    -0.08
    's
    -0.07
     stead
    -0.07
    .
    -0.07
    'ng
    -0.07
    -0.07
    POSITIVE LOGITS
    反馈
    0.10
    整改
    0.10
     clarification
    0.09
     kontaktieren
    0.09
    رفض
    0.09
     corrective
    0.09
    ต่ํา
    0.09
     intermediary
    0.08
    вит
    0.08
    修改
    0.08
    Act Density 0.030%

    No Known Activations