INDEX
Negative Logits
distractions
-0.08
innovative
-0.06
ESS
-0.06
ess
-0.06
_metrics
-0.06
ounced
-0.06
�
-0.06
obedient
-0.06
ργ
-0.06
prompting
-0.06
POSITIVE LOGITS
Reduced
0.07
remove
0.07
Odds
0.06
"[
0.06
.pref
0.06
MSNBC
0.06
usleep
0.06
ー
0.06
Gab
0.06
Spatial
0.06
Activations Density 0.001%