INDEX
    Explanations

    polite speech

    New Auto-Interp
    Negative Logits
    CEF
    -0.07
    ('(
    -0.07
     +
    -0.07
    '
    -0.07
    -0.07
     VGA
    -0.06
    -0.06
     Preference
    -0.06
     ´
    -0.06
    an
    -0.06
    POSITIVE LOGITS
    �습니다
    0.11
    합니다
    0.11
    했습니다
    0.11
    います
    0.11
     있습니다
    0.10
    입니다
    0.10
    しました
    0.09
     됩니다
    0.09
     입니다
    0.09
    です
    0.09
    Act Density 0.021%

    No Known Activations