INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     위한
    1.82
     위하여
    1.77
    1.60
     통한
    1.59
     위해
    1.57
    行う
    1.56
     위해서는
    1.55
     จัด
    1.55
     sikre
    1.54
     måste
    1.50
    POSITIVE LOGITS
    ↵↵
    1.64
    ↵↵↵↵↵
    1.34
    ↵↵↵↵
    1.26
    ↵↵↵
    1.26
    ↵↵↵↵↵↵↵
    1.22
    цеп
    1.18
    adin
    1.15
    ↵↵↵↵↵↵
    1.14
    во
    1.12
    чам
    1.12
    Act Density 0.667%

    No Known Activations