INDEX
    Explanations

    conjunctions and determiners

    New Auto-Interp
    Negative Logits
    -1.93
    -1.93
    -1.79
    そして
    -1.77
    -1.68
     also
    -1.57
    これは
    -1.56
    -1.52
    -1.49
    <bos>
    -1.38
    POSITIVE LOGITS
    為に
    2.20
    久し
    1.94
    の方に
    1.84
    って何
    1.82
    を探す
    1.80
    事が
    1.73
    んですよ
    1.73
    えっ
    1.72
    の方も
    1.72
    さぁ
    1.71
    Act Density 0.550%

    No Known Activations