INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    𝗟
    0.88
    0.86
    ется
    0.83
     درصد
    0.83
    是由
    0.82
    например
    0.80
    𝗣
    0.79
    不过
    0.79
     както
    0.79
    𝗗
    0.79
    POSITIVE LOGITS
    1
    1.02
    2
    0.91
    4
    0.82
    7
    0.79
    3
    0.78
    lel
    0.77
    e
    0.77
    tails
    0.75
     I
    0.75
    link
    0.75
    Act Density 0.058%

    No Known Activations