INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     it
    0.60
     яка
    0.57
    ς
    0.56
    𝔰
    0.53
    𝑠
    0.50
    чном
    0.50
    ).\\
    0.50
    |</
    0.49
    нала
    0.49
    чному
    0.49
    POSITIVE LOGITS
    ب
    0.66
    k
    0.65
    ik
    0.64
    us
    0.52
    ia
    0.51
    ת
    0.51
    ne
    0.49
    ari
    0.48
    ك
    0.48
    list
    0.46
    Act Density 0.000%

    No Known Activations