INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.95
    ни
    0.82
    0.81
    ček
    0.81
     اسرائی
    0.80
     اربعه
    0.78
     ഒരു
    0.74
    сон
    0.74
     похоже
    0.74
    اني
    0.73
    POSITIVE LOGITS
    p
    1.13
    1.09
    0.99
    y
    0.98
    h
    0.95
    ne
    0.94
    ala
    0.94
    w
    0.93
    ۲
    0.92
    al
    0.91
    Act Density 0.009%

    No Known Activations