INDEX
Negative Logits
暾
-0.08
hanya
-0.07
settling
-0.07
conosc
-0.07
?↵↵↵↵↵↵
-0.07
性价
-0.07
clash
-0.07
翦
-0.07
新闻记者
-0.07
�
-0.07
POSITIVE LOGITS
bestimm
0.08
self
0.08
GRA
0.07
реб
0.07
说了
0.07
LEG
0.06
Bermuda
0.06
chosen
0.06
paralle
0.06
percept
0.06
Activations Density 0.013%