INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.11
    リング
    -0.08
     Hundred
    -0.08
    bol
    -0.07
     gf
    -0.07
     구축
    -0.07
    PU
    -0.07
    ောင်း
    -0.07
    worthiness
    -0.07
    bul
    -0.07
    POSITIVE LOGITS
    0.14
     omissions
    0.09
     volontaire
    0.09
     Ist
    0.08
     사항
    0.08
     лиш
    0.08
    遗漏
    0.08
    Ist
    0.08
     undue
    0.08
     filtration
    0.07
    Act Density 0.006%

    No Known Activations