INDEX
    Explanations

    cause damage or indicate

    New Auto-Interp
    Negative Logits
    按照
    0.49
    党委
    0.48
     استخدم
    0.44
    มี
    0.43
    bilder
    0.43
     opinions
    0.43
     versions
    0.41
     embody
    0.41
     استخدام
    0.41
    0.41
    POSITIVE LOGITS
    0.44
     pieza
    0.44
    0.43
    0.42
    ędzynarod
    0.42
     rumah
    0.42
     پھی
    0.41
    pof
    0.41
    0.41
    0.41
    Act Density 0.007%

    No Known Activations