INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     negativity
    -0.08
     verandering
    -0.07
     ак
    -0.07
    #g
    -0.07
     domin
    -0.07
    же
    -0.07
    րի
    -0.07
    ŝ
    -0.07
    &p
    -0.07
    ע
    -0.07
    POSITIVE LOGITS
    inus
    0.08
    -<?
    0.07
     Pitt
    0.07
     منتجات
    0.07
    ────
    0.07
    /<?
    0.07
     توسعه
    0.07
     Pań
    0.07
     Seh
    0.07
     një
    0.07
    Act Density 0.017%

    No Known Activations