INDEX
    Explanations

    repetition for emphasis

    New Auto-Interp
    Negative Logits
    ほら
    -1.38
    ようです
    -1.25
    あー
    -1.13
    に変更
    -1.11
    に戻
    -1.11
    すみません
    -1.11
    づくり
    -1.10
    こいつ
    -1.07
    ちょこ
    -1.07
    凄い
    -1.06
    POSITIVE LOGITS
    1.43
    そして
    1.33
     (
    1.30
    !!!
    1.20
     NSCoder
    1.14
    oys
    1.11
    rénées
    1.11
    <0xA3>
    1.09
    <bos>
    1.07
    では
    1.07
    Act Density 0.010%

    No Known Activations