INDEX
    Explanations

    verbs indicating function or action

    New Auto-Interp
    Negative Logits
     Yourself
    0.36
    组成的
    0.34
    ین
    0.31
    ett
    0.30
     irgend
    0.30
    این
    0.29
     või
    0.29
     Myself
    0.29
    0.29
     yourself
    0.28
    POSITIVE LOGITS
    ставляет
    0.52
    ňuje
    0.49
    водит
    0.49
     মূলত
    0.48
    щает
    0.47
     itself
    0.45
    izuje
    0.45
    жает
    0.43
    ítja
    0.43
    вает
    0.42
    Act Density 0.115%

    No Known Activations