INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    inf
    -0.09
    INF
    -0.08
     смеш
    -0.08
     سامنے
    -0.07
     INF
    -0.07
     zwar
    -0.07
     inf
    -0.07
     ш
    -0.07
    (金
    -0.07
     sav
    -0.07
    POSITIVE LOGITS
     volver
    0.10
     vuelve
    0.10
     വീണ്ടും
    0.09
     vuelva
    0.09
     Benn
    0.09
     kembali
    0.09
     uli
    0.09
     retom
    0.09
     ফিরে
    0.09
     tekrar
    0.08
    Act Density 0.006%

    No Known Activations