INDEX
Negative Logits
think
-0.07
나오
-0.07
这样做
-0.07
网友们
-0.07
fired
-0.07
Wik
-0.06
Voor
-0.06
forward
-0.06
แก
-0.06
Seriously
-0.06
POSITIVE LOGITS
护栏
0.07
枢
0.07
rites
0.07
adhesive
0.07
竞争力
0.07
.transport
0.07
_every
0.07
capability
0.07
başı
0.06
pleasure
0.06
Activations Density 0.001%