INDEX
Negative Logits
好吃
-0.08
禁忌
-0.07
robbery
-0.07
מעולה
-0.07
dar
-0.07
奇怪
-0.07
叹了口气
-0.07
さまざ
-0.07
مطل
-0.07
半月
-0.07
POSITIVE LOGITS
some
0.07
Parsing
0.07
FY
0.07
ories
0.07
irement
0.07
-era
0.06
线下
0.06
الى
0.06
(j
0.06
enums
0.06
Activations Density 0.005%