INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    im
    1.02
    un
    0.95
    é
    0.94
    il
    0.91
    ov
    0.89
     a
    0.87
    ing
    0.87
    ik
    0.86
    ')
    0.86
    ur
    0.84
    POSITIVE LOGITS
    س
    1.14
    с
    1.07
    تو
    0.91
    رف
    0.77
    נ
    0.77
    ット
    0.76
    телно
    0.76
    לת
    0.76
    точ
    0.76
    0.76
    Act Density 0.004%

    No Known Activations