INDEX
Negative Logits
ault
-0.28
/preferences
-0.26
èĩªä¸»
-0.24
éĸ
-0.24
pals
-0.24
contracting
-0.24
atisfied
-0.24
dereg
-0.24
PERT
-0.23
uche
-0.23
POSITIVE LOGITS
èĥŃ
0.27
backs
0.26
·»
0.26
vik
0.26
ä¸Ŀä¸Ŀ
0.25
绺
0.25
æĸĩä¸Ń
0.24
sky
0.24
stepping
0.24
æĥķ
0.24
Activations Density 0.032%