INDEX
    Explanations

    exclamations and punctuation

    New Auto-Interp
    Negative Logits
     vooral
    0.52
     되겠죠
    0.52
     اكيد
    0.50
    겠지만
    0.47
    特に
    0.45
     besonders
    0.44
     เนาะ
    0.44
     pewno
    0.42
    겠죠
    0.42
    きましたが
    0.42
    POSITIVE LOGITS
     (!)
    1.40
    (!)
    1.34
    !!!
    1.20
    !!!!
    1.16
    !!!!!
    1.14
    居然
    1.14
    (!
    1.13
     (!
    1.12
    !!!!!!
    1.12
    !!!!!!!
    1.11
    Act Density 0.023%

    No Known Activations