INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     grundsätzlich
    0.35
     economici
    0.33
     tồn
    0.32
     войне
    0.32
     требует
    0.32
     путем
    0.31
     adrenergic
    0.31
     blockchains
    0.31
     unabhängig
    0.30
     intoler
    0.30
    POSITIVE LOGITS
    担任
    0.74
    作为
    0.67
    擔任
    0.66
     बतौर
    0.66
     selaku
    0.64
     作为
    0.61
     sebagai
    0.60
    作為
    0.54
     Supervis
    0.49
     jako
    0.48
    Act Density 0.078%

    No Known Activations