INDEX
Negative Logits
Seems
-0.07
пу
-0.07
ΥΝ
-0.07
.assertAlmostEqual
-0.06
homosex
-0.06
menacing
-0.06
unimagin
-0.06
distracted
-0.06
bubb
-0.06
había
-0.06
POSITIVE LOGITS
antics
0.06
acquisitions
0.06
ology
0.06
Held
0.06
Kahn
0.06
rored
0.06
###############################################################################↵
0.06
ppt
0.06
اسي
0.06
etched
0.06
Activations Density 0.001%