INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    مي
    0.83
    م
    0.78
    اً
    0.77
    مة
    0.77
    اي
    0.77
    ك
    0.74
    اء
    0.72
    يل
    0.71
    اج
    0.70
    0.68
    POSITIVE LOGITS
    y
    1.02
    c
    0.96
    t
    0.93
    <0x80>
    0.89
    ir
    0.88
    u
    0.86
    al
    0.78
    g
    0.74
    b
    0.72
     inhibition
    0.72
    Act Density 0.021%

    No Known Activations