INDEX
Negative Logits
dıkt
-0.08
tịch
-0.07
conte
-0.07
,’”
-0.07
新版
-0.06
尿
-0.06
immune
-0.06
הודעה
-0.06
Adventure
-0.06
leve
-0.06
POSITIVE LOGITS
Darkness
0.07
be
0.07
电台
0.07
洗
0.07
wash
0.07
orghini
0.07
arness
0.06
流入
0.06
的压力
0.06
(ra
0.06
Activations Density 0.001%