INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     unborn
    -0.08
    匿名
    -0.07
     germ
    -0.07
    hood
    -0.07
     sumar
    -0.07
    -0.07
     Bloomington
    -0.07
     coll
    -0.07
    antaa
    -0.07
     pot
    -0.07
    POSITIVE LOGITS
    IMG
    0.08
    нэ
    0.08
     dans
    0.07
    ом
    0.07
    ’d
    0.07
    0.07
    ьют
    0.07
    ='/
    0.07
    :this
    0.07
     pendant
    0.07
    Act Density 0.001%

    No Known Activations