INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.46
    0.41
     ৩৮
    0.40
    𝗪
    0.40
    เยี่ยม
    0.39
    ="@+
    0.39
    𝜋
    0.39
    0.38
    0.38
    𝗮
    0.38
    POSITIVE LOGITS
     وچ
    0.85
     บ่
    0.81
    0.77
     एगो
    0.77
     تے
    0.74
    0.72
     vun
    0.71
    0.71
     ኣብ
    0.68
    0.65
    Act Density 0.005%

    No Known Activations