INDEX
Explanations
conjunctions and determiners
New Auto-Interp
Negative Logits
を
-1.93
と
-1.93
が
-1.79
そして
-1.77
も
-1.68
also
-1.57
これは
-1.56
で
-1.52
は
-1.49
<bos>
-1.38
POSITIVE LOGITS
為に
2.20
久し
1.94
の方に
1.84
って何
1.82
を探す
1.80
事が
1.73
んですよ
1.73
えっ
1.72
の方も
1.72
さぁ
1.71
Activations Density 0.550%