INDEX
Negative Logits
SHIFT
-0.07
Calendar
-0.06
\.
-0.06
grounded
-0.06
.sensor
-0.06
ир
-0.06
back
-0.06
STYLE
-0.06
_DIRECTION
-0.06
за
-0.06
POSITIVE LOGITS
obody
0.07
finding
0.07
šli
0.07
sexism
0.07
ikki
0.07
عم
0.06
�
0.06
_genes
0.06
tener
0.06
_tF
0.06
Activations Density 0.001%