INDEX
Negative Logits
Cardiff
-0.08
真心
-0.07
אוט
-0.07
يقوم
-0.07
spontaneous
-0.06
.ot
-0.06
鼎
-0.06
genuine
-0.06
胤
-0.06
红星
-0.06
POSITIVE LOGITS
Limits
0.08
ski
0.07
coh
0.07
halls
0.07
ones
0.07
_due
0.07
(&
0.06
_integral
0.06
hizo
0.06
效应
0.06
Activations Density 0.011%