INDEX
Negative Logits
被骗
-0.08
Dana
-0.08
_mp
-0.08
_ns
-0.08
sour
-0.08
Raspberry
-0.07
Ís
-0.07
Sour
-0.07
sus
-0.07
passengers
-0.07
POSITIVE LOGITS
essays
0.15
Essay
0.15
essay
0.14
作文
0.14
Essay
0.13
Essays
0.12
essay
0.12
任选
0.11
Submission
0.10
articulate
0.10
Activations Density 0.095%