INDEX
Explanations
abstract concepts ending phrases
New Auto-Interp
Negative Logits
없고
0.61
असून
0.58
と思いますが
0.56
かもしれませんが
0.51
していますが
0.51
했고
0.49
ますが
0.47
!),
0.45
...),
0.44
었고
0.44
POSITIVE LOGITS
。
0.90
។
0.83
.”
0.76
።
0.72
."
0.71
.。
0.71
.}
0.68
).
0.68
".
0.68
.)
0.68
Activations Density 4.553%