INDEX
Negative Logits
II
-0.07
.Ac
-0.06
tho
-0.06
-final
-0.06
红
-0.06
FE
-0.06
不
-0.06
कम
-0.06
mach
-0.06
dan
-0.06
POSITIVE LOGITS
hateful
0.06
(Table
0.06
.binary
0.06
_cor
0.06
Anyone
0.06
-double
0.06
##↵↵
0.06
pecting
0.06
ompiler
0.06
*****↵↵
0.06
Activations Density 0.040%