INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    1.19
    res
    1.16
    1.13
    más
    1.11
    mig
    1.09
    rad
    1.05
    ste
    1.03
    deposited
    1.01
    ‌ای
    0.99
    dan
    0.98
    POSITIVE LOGITS
    ה
    1.70
    י
    1.50
    ы
    1.48
    1.45
    ه
    1.37
    ת
    1.32
    ב
    1.29
    ל
    1.25
    ك
    1.15
     on
    1.12
    Act Density 0.078%

    No Known Activations