INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     
    1.23
    ओं
    1.03
     l
    1.02
    0
    1.02
     I
    0.92
    ंद
    0.92
    \
    0.92
    ö
    0.91
    0.89
    ist
    0.89
    POSITIVE LOGITS
    К
    1.44
    ב
    1.32
    1.32
    B
    1.27
    1.20
    ية
    1.18
    1.17
    1.16
    اك
    1.15
    1.14
    Act Density 0.064%

    No Known Activations