INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    воля
    -0.07
     Dios
    -0.06
     دش
    -0.06
     گیر
    -0.06
    _then
    -0.06
    قول
    -0.06
     søger
    -0.06
     rằng
    -0.06
     injuring
    -0.06
     cultural
    -0.05
    POSITIVE LOGITS
     наблю
    0.07
     Tcl
    0.07
    HEMA
    0.07
    itm
    0.07
    Sk
    0.07
    ńst
    0.06
     mage
    0.06
     advise
    0.06
    DF
    0.06
     ещё
    0.06
    Act Density 0.002%

    No Known Activations