INDEX
Explanations
action verbs and punctuation
New Auto-Interp
Negative Logits
这种
0.42
这样一个
0.40
and
0.38
했던
0.38
അയാൾ
0.38
और
0.38
aquele
0.38
性和
0.37
在我们
0.37
барои
0.36
POSITIVE LOGITS
.
0.47
。『
0.47
។
0.47
।
0.45
న్నారు
0.44
↵↵
0.43
؛
0.42
0.42
😢
0.42
།
0.41
Activations Density 0.231%