INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    \
    1.26
    ן
    1.26
    ри
    1.00
    ۳
    0.97
    ۲
    0.94
    {
    0.92
    ۵
    0.90
    ))
    0.89
    (
    0.88
    ی
    0.84
    POSITIVE LOGITS
    r
    1.38
    n
    1.22
    ن
    1.15
    ر
    1.00
    其他
    0.92
    0.86
    ب
    0.85
    н
    0.82
    0.81
     lép
    0.80
    Act Density 0.045%

    No Known Activations