INDEX
Negative Logits
Mini
-0.07
suicide
-0.07
Accent
-0.06
Frozen
-0.06
sû
-0.06
Fold
-0.06
練
-0.06
dan
-0.06
zich
-0.06
dipped
-0.06
POSITIVE LOGITS
multiply
0.08
لك
0.08
τές
0.07
(models
0.06
abyte
0.06
/\.
0.06
Commands
0.06
ีส
0.06
の上
0.06
TAS
0.06
Activations Density 0.088%