INDEX
Explanations
negative aspects and progress
New Auto-Interp
Negative Logits
蟶
0.89
獼
0.87
劉
0.86
鰱
0.86
鏗
0.82
鶚
0.82
雖然
0.81
他說
0.80
癤
0.80
蓯
0.79
POSITIVE LOGITS
线
0.62
,
0.60
步
0.58
址
0.57
量
0.57
的
0.56
能
0.55
粹
0.55
度
0.55
电
0.55
Activations Density 0.021%