INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ي
    0.82
    g
    0.76
    es
    0.71
    i
    0.70
    aja
    0.68
    et
    0.65
    en
    0.64
    man
    0.63
    kannya
    0.61
    y
    0.60
    POSITIVE LOGITS
     что
    0.83
    ️⃣
    0.76
    0.73
    𝓁
    0.69
    𝗧
    0.69
     lordship
    0.69
    BufOffset
    0.68
    𝒸
    0.68
    0.67
    0.66
    Act Density 2.161%

    No Known Activations