INDEX
Negative Logits
劉
0.69
蟶
0.61
張
0.59
陳
0.58
閱讀
0.58
資
0.58
駝
0.57
鄧
0.56
銀
0.55
賈
0.55
POSITIVE LOGITS
具有
0.56
所
0.52
被
0.49
相同
0.46
的
0.45
所有
0.45
AND
0.42
平均
0.41
essere
0.41
或
0.40
Activations Density 0.017%
劉
蟶
張
陳
閱讀
資
駝
鄧
銀
賈
具有
所
被
相同
的
所有
AND
平均
essere
或