INDEX
    Explanations

    checking status or item

    New Auto-Interp
    Negative Logits
    ،
    0.46
    res
    0.39
    *
    0.36
     podium
    0.35
    0.33
     داشتن
    0.31
    ”،
    0.31
    0.31
     आपल्याला
    0.31
     ،
    0.31
    POSITIVE LOGITS
    0.54
    ul
    0.50
    ב
    0.49
    ם
    0.49
    0.46
    ą
    0.46
    ب
    0.45
    з
    0.45
    ية
    0.44
    ا
    0.43
    Act Density 0.335%

    No Known Activations