INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    لی
    1.32
    ה
    1.13
    จะ
    1.05
     باید
    1.05
    ای
    1.02
    یک
    1.02
    С
    0.99
    ↵↵
    0.98
     دی
    0.98
    ین
    0.97
    POSITIVE LOGITS
    n
    1.37
    ни
    1.28
    1.14
    да
    1.11
    ным
    1.11
    ni
    1.10
    с
    1.07
    :
    1.05
    1
    1.05
    м
    1.02
    Act Density 0.000%

    No Known Activations