INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ج
    1.26
    지와
    1.17
    1.09
    و
    1.05
    یم
    1.02
    1.02
     marred
    0.99
    सँग
    0.98
    را
    0.96
    رب
    0.95
    POSITIVE LOGITS
    er
    1.27
     is
    1.02
    r
    1.00
    ر
    0.96
    ール
    0.93
    した
    0.91
    ado
    0.90
    </strong>
    0.90
    0.89
    ב
    0.89
    Act Density 0.001%

    No Known Activations