INDEX
Negative Logits
*
-0.07
*N
-0.06
bro
-0.06
Json
-0.06
_INIT
-0.06
nickname
-0.06
←
-0.06
ocese
-0.06
clinic
-0.06
_increment
-0.06
POSITIVE LOGITS
truth
0.15
truth
0.08
资金
0.06
truthful
0.06
_REGEX
0.06
ght
0.06
CanBe
0.06
rahat
0.06
_truth
0.06
equip
0.06
Activations Density 0.004%