INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Poland
    1.19
     Polish
    1.16
    Poland
    1.06
    Polish
    1.03
     Polen
    1.02
     Поль
    0.96
     Polonia
    0.94
     акчага
    0.90
     депозиттик
    0.86
     poln
    0.85
    POSITIVE LOGITS
     odpowied
    0.93
    ą
    0.93
     przy
    0.88
     róż
    0.86
     nie
    0.85
     wy
    0.85
     zwy
    0.85
     wyra
    0.85
    nie
    0.84
    ę
    0.84
    Act Density 0.014%

    No Known Activations