INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ع
    1.55
    ی
    1.48
    ای
    1.46
     for
    1.28
    s
    1.26
    ش
    1.25
    1.25
    いる
    1.23
    ود
    1.20
    وس
    1.20
    POSITIVE LOGITS
    an
    1.38
    the
    1.36
    נ
    1.24
     on
    1.15
    quele
    1.07
    ב
    1.05
    AN
    0.99
    (^^
    0.99
    ну
    0.98
    Y
    0.95
    Act Density 0.010%

    No Known Activations