INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     määr
    -0.08
    mills
    -0.08
     sint
    -0.08
     смерт
    -0.08
     ersetzt
    -0.07
     looked
    -0.07
    explode
    -0.07
     своим
    -0.07
     import
    -0.07
     толст
    -0.07
    POSITIVE LOGITS
    طة
    0.08
    üd
    0.08
     emphasizing
    0.08
    иста
    0.08
     mastering
    0.07
    0.07
     lettering
    0.07
     assistir
    0.07
    0.07
    0.07
    Act Density 0.004%

    No Known Activations