INDEX
Negative Logits
Chore
-0.07
Carb
-0.07
מלי
-0.07
dummy
-0.07
event
-0.07
öde
-0.07
colourful
-0.07
兒童
-0.06
_inc
-0.06
Doch
-0.06
POSITIVE LOGITS
法律规定
0.08
asons
0.07
anded
0.07
世界一流
0.07
Ax
0.06
AO
0.06
tang
0.06
أسل
0.06
ガイド
0.06
قطع
0.06
Activations Density 0.033%