INDEX
Negative Logits
縝
0.69
蟄
0.67
鲽
0.65
تباين
0.63
殞
0.63
繚
0.62
皚
0.61
堊
0.61
鷗
0.61
規範
0.60
POSITIVE LOGITS
吃
0.82
做
0.70
没
0.70
scolded
0.69
打
0.69
怎么
0.68
不好
0.68
买
0.68
老师
0.66
吃
0.66
Activations Density 0.011%
縝
蟄
鲽
تباين
殞
繚
皚
堊
鷗
規範
吃
做
没
scolded
打
怎么
不好
买
老师
吃