INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    a
    2.55
    o
    2.14
    aing
    2.08
    ی
    1.94
    >
    1.88
    ing
    1.82
    1.77
    in
    1.73
    al
    1.72
    1.71
    POSITIVE LOGITS
    ों
    2.16
    ين
    2.08
    ের
    1.95
    s
    1.91
    ьте
    1.75
    س
    1.73
    tedir
    1.70
    此之外
    1.67
    おります
    1.65
    负责人
    1.64
    Act Density 0.053%

    No Known Activations