INDEX
Negative Logits
Succ
-0.07
riding
-0.06
distributed
-0.06
認
-0.06
-radio
-0.06
dass
-0.06
requent
-0.06
Checkbox
-0.06
sexism
-0.06
toujours
-0.06
POSITIVE LOGITS
fill
0.08
inflated
0.08
filling
0.08
filled
0.07
[((
0.07
airs
0.07
silky
0.07
sdf
0.07
joins
0.06
volumes
0.06
Activations Density 0.026%