INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    وم
    1.23
    ب
    1.23
    ى
    1.23
    ك
    1.21
    ف
    1.20
     ي
    1.13
    )。
    1.11
    ,“
    1.08
    %。
    1.06
    к
    1.06
    POSITIVE LOGITS
    u
    1.69
    t
    1.59
    es
    1.55
    is
    1.49
    ای
    1.38
    id
    1.37
    a
    1.36
    g
    1.33
    l
    1.25
    r
    1.23
    Act Density 0.000%

    No Known Activations