INDEX
    Explanations

    categories and types

    New Auto-Interp
    Negative Logits
     досить
    -0.07
    áng
    -0.06
     vag
    -0.06
    ρηση
    -0.06
    -profit
    -0.06
    agus
    -0.06
     funding
    -0.06
     ims
    -0.06
     gerç
    -0.06
     Nez
    -0.06
    POSITIVE LOGITS
    kke
    0.07
    (NAME
    0.07
    /__
    0.07
     sorte
    0.06
    0.06
     bother
    0.06
    0.06
    าจะ
    0.06
     Trudeau
    0.06
     Він
    0.06
    Act Density 0.071%

    No Known Activations