INDEX
Negative Logits
variation
-0.07
Fuller
-0.07
Portions
-0.07
rl
-0.07
▏▏
-0.06
926
-0.06
Sheldon
-0.06
receptive
-0.06
网络
-0.06
Renaissance
-0.06
POSITIVE LOGITS
accusation
0.09
accused
0.09
accusations
0.09
accuses
0.08
Acc
0.08
accus
0.08
zeich
0.07
accusing
0.07
Claim
0.07
"[
0.07
Activations Density 0.008%