INDEX
Negative Logits
bonito
-0.09
-thinking
-0.08
Bonus
-0.08
américain
-0.08
macam
-0.07
_BY
-0.07
漂亮
-0.07
Ặ
-0.07
ๆ
-0.07
suffisamment
-0.07
POSITIVE LOGITS
kor
0.08
op
0.08
ot
0.07
МВД
0.07
בתחום
0.07
poh
0.07
otá
0.07
..."
0.07
κη
0.07
업
0.07
Activations Density 0.024%