INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    1.57
    t
    1.52
    c
    1.48
    u
    1.41
    n
    1.41
     a
    1.29
    Τ
    1.19
    d
    1.17
    b
    1.13
    er
    1.12
    POSITIVE LOGITS
    ية
    1.24
    ↵↵
    1.13
    ле
    1.08
    ريق
    1.08
     في
    1.05
    ري
    1.02
     هي
    1.01
    с
    1.00
    ля
    0.98
    0.98
    Act Density 0.000%

    No Known Activations