INDEX
Negative Logits
fortn
-0.08
懊
-0.07
答卷
-0.07
Garmin
-0.07
拃
-0.07
acknowled
-0.07
ケット
-0.07
Fight
-0.07
꿩
-0.07
茄子
-0.07
POSITIVE LOGITS
lying
0.07
μ
0.07
("0.06
pure
0.06
asions
0.06
'b
0.06
בוה
0.06
%.↵↵
0.06
wondering
0.06
鸟类
0.06
Activations Density 0.010%