INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     a
    1.38
    (
    1.22
    s
    1.13
    ר
    1.13
     <
    1.05
    ی
    1.05
    x
    1.01
    0.93
     et
    0.92
     i
    0.90
    POSITIVE LOGITS
    ע
    1.02
    เป็น
    0.99
    def
    0.97
    0.91
    deki
    0.88
    gon
    0.87
     کاروب
    0.86
    ren
    0.84
    ει
    0.82
    மாக
    0.82
    Act Density 0.002%

    No Known Activations