INDEX
    Explanations

    choose to learn patterns

    New Auto-Interp
    Negative Logits
    Το
    0.92
     Το
    0.92
    То
    0.84
     tot
    0.84
    TOT
    0.82
    το
    0.81
    ofen
    0.79
     Tổ
    0.79
    tox
    0.78
    ΤΟ
    0.76
    POSITIVE LOGITS
     να
    1.20
     anzu
    1.05
     để
    1.01
     להת
    0.98
    ที่จะ
    0.94
     щоб
    0.94
    0.91
     чтобы
    0.89
     einz
    0.83
     outlandish
    0.83
    Act Density 0.081%

    No Known Activations