INDEX
    Explanations

    causing harm or distress

    New Auto-Interp
    Negative Logits
     영업
    0.47
    ที่สุด
    0.46
     עבור
    0.46
    事务所
    0.46
     scares
    0.45
    0.45
     จน
    0.45
     Yaman
    0.45
     maraming
    0.45
    xlabel
    0.44
    POSITIVE LOGITS
    а
    0.60
    اب
    0.45
    開始
    0.45
    0.43
     heavily
    0.42
    fs
    0.42
    of
    0.42
    0.41
    ivating
    0.41
    (
    0.41
    Act Density 0.001%

    No Known Activations