INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    b
    1.14
    ش
    1.13
    m
    1.09
    ہ
    1.08
    ş
    1.07
    ש
    1.07
    л
    1.06
    ことから
    1.05
     voie
    1.04
    ک
    1.04
    POSITIVE LOGITS
    1.48
    ри
    1.25
    I
    1.25
    ون
    1.20
    1.13
    Of
    1.13
    at
    1.07
    AY
    1.07
    و
    1.07
    OU
    1.04
    Act Density 0.006%

    No Known Activations