INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     élargies
    0.83
    ى
    0.81
    0.77
    <0x0D>
    0.75
    л
    0.74
    0.72
    						
    0.71
    هُ
    0.71
    ியது
    0.71
    м
    0.71
    POSITIVE LOGITS
     hay
    1.23
    Hay
    1.06
     Hay
    0.99
    К
    0.88
    C
    0.83
     HAY
    0.83
     haystack
    0.83
    H
    0.82
    0.79
    n
    0.77
    Act Density 0.002%

    No Known Activations