INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ل
    1.07
    و
    1.02
    لي
    0.96
    بير
    0.91
    ك
    0.86
    0.85
    بي
    0.84
    غ
    0.83
    ವನ್ನು
    0.82
    في
    0.82
    POSITIVE LOGITS
    ad
    0.86
     (
    0.77
    ol
    0.74
    ர்
    0.73
    adır
    0.73
    u
    0.73
    c
    0.72
    0.72
    0.70
    (
    0.70
    Act Density 0.007%

    No Known Activations