INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     در
    1.06
     دلیل
    1.04
    ،
    1.03
    0.99
    ح
    0.92
     ہیں۔
    0.88
     باید
    0.87
    、『
    0.86
    ता
    0.84
    的状态
    0.84
    POSITIVE LOGITS
    n
    2.64
    l
    1.91
    t
    1.85
    r
    1.75
    g
    1.57
    m
    1.40
    d
    1.37
    en
    1.28
    ing
    1.26
    nál
    1.22
    Act Density 0.110%

    No Known Activations