INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     a
    1.11
     I
    1.04
     an
    0.92
     B
    0.89
    !
    0.84
    ?
    0.80
     M
    0.79
     H
    0.78
     U
    0.78
     D
    0.75
    POSITIVE LOGITS
    ية
    1.15
    ين
    0.89
    يد
    0.86
    0.83
    تي
    0.77
    يل
    0.76
    0.74
    0.73
    مين
    0.71
    مي
    0.70
    Act Density 0.123%

    No Known Activations