INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     مواد
    -0.07
     hockey
    -0.07
    будь
    -0.07
     vlast
    -0.07
     чт
    -0.06
     курс
    -0.06
    ออกแบบ
    -0.06
     погод
    -0.06
     багатьох
    -0.06
    uctions
    -0.06
    POSITIVE LOGITS
     spam
    0.12
     Spam
    0.11
    .TextEdit
    0.06
     Dover
    0.06
    ming
    0.06
    .sim
    0.06
     space
    0.06
    """,↵
    0.06
    spam
    0.06
    HasMaxLength
    0.06
    Act Density 0.002%

    No Known Activations