INDEX
Negative Logits
convey
-0.07
竞赛
-0.07
Oswald
-0.07
营
-0.07
cerv
-0.06
Hemp
-0.06
comprises
-0.06
particular
-0.06
tram
-0.06
一篇
-0.06
POSITIVE LOGITS
.change
0.08
racial
0.07
ligne
0.07
Maria
0.07
joking
0.07
_scaling
0.07
births
0.07
amples
0.07
Leaders
0.07
ivors
0.07
Activations Density 0.047%