INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ут
    0.29
     Смо
    0.29
     соответ
    0.28
     لمع
    0.27
     доступны
    0.27
    0.27
     секу
    0.26
     Согласно
    0.26
    Следу
    0.26
    𝚝
    0.26
    POSITIVE LOGITS
     minha
    0.30
     devi
    0.29
     political
    0.29
     fishing
    0.29
     propaganda
    0.27
     voetbal
    0.27
     gastronomy
    0.26
     football
    0.26
     fake
    0.26
     showbiz
    0.26
    Act Density 0.000%

    No Known Activations