INDEX
Explanations
code and punctuation endings
New Auto-Interp
Negative Logits
畈
0.45
𒉌
0.44
();}
0.43
气体
0.41
⺆
0.40
这样
0.40
\}=\
0.40
τά
0.39
Protein
0.39
癃
0.39
POSITIVE LOGITS
↵↵
0.70
0.53
0.52
0.49
。
0.47
0.47
0.44
↵
0.44
0.44
0.42
Activations Density 0.331%