INDEX
Negative Logits
즐
-0.09
(combo
-0.09
deilige
-0.08
dene
-0.08
attractive
-0.08
વધારે
-0.08
불
-0.08
مباشرة
-0.07
બદ
-0.07
(actual
-0.07
POSITIVE LOGITS
®
0.09
/text
0.08
助手
0.08
assistant
0.08
Assistant
0.08
/self
0.08
客服
0.07
回答
0.07
परी
0.07
nd
0.07
Activations Density 0.001%