INDEX
Negative Logits
Measurement
-0.08
gs
-0.07
Calculate
-0.06
平
-0.06
Submission
-0.06
aud
-0.06
-copy
-0.06
Lies
-0.06
505
-0.06
축
-0.06
POSITIVE LOGITS
J
0.07
_phrase
0.06
subtle
0.06
피해
0.06
่ท
0.06
logger
0.06
ReLU
0.06
rubu
0.06
inst
0.06
ehen
0.06
Activations Density 0.001%