INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     meh
    0.38
    க்குக
    0.37
     لح
    0.35
    ல்கள்
    0.35
     মুহ
    0.35
    لح
    0.34
    いは
    0.33
     Meh
    0.33
    кви
    0.33
    ాయి
    0.33
    POSITIVE LOGITS
    h
    1.11
    ha
    1.05
    ho
    1.02
    1.02
    𝗵
    1.02
    𝐡
    1.01
    ht
    0.97
    𝙝
    0.96
    hy
    0.96
    𝘩
    0.96
    Act Density 0.001%

    No Known Activations