INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     سرو
    -0.07
     Carl
    -0.07
    -0.07
     score
    -0.06
     scores
    -0.06
     Clement
    -0.06
    Cel
    -0.06
     cocks
    -0.06
    anson
    -0.06
     tương
    -0.06
    POSITIVE LOGITS
     Hy
    0.17
     hy
    0.16
    Hy
    0.16
    .hy
    0.13
    hy
    0.12
     hygiene
    0.11
     HY
    0.10
    HY
    0.10
     wy
    0.09
    Y
    0.09
    Act Density 0.012%

    No Known Activations