INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    了一個
    -1.55
    了一
    -1.46
    Kondisi
    -1.41
     lebih
    -1.39
    Gön
    -1.38
    はかなり
    -1.37
     Trabalho
    -1.34
    -1.34
     isn
    -1.34
    Ещё
    -1.31
    POSITIVE LOGITS
     eeuw
    1.29
    なのだ
    1.24
    1.19
    なのでしょう
    1.17
    越高
    1.17
     formerly
    1.16
    intracht
    1.12
    malade
    1.11
    1.11
    1.10
    Act Density 0.154%

    No Known Activations