INDEX
Negative Logits
Bonus
-0.08
키
-0.07
Narc
-0.07
.kafka
-0.07
�ng
-0.07
看着
-0.07
letics
-0.07
普通
-0.07
_CTRL
-0.07
쓰
-0.07
POSITIVE LOGITS
eş
0.07
elease
0.06
rehe
0.06
transcript
0.06
occurred
0.06
rhe
0.06
textbook
0.06
conex
0.06
_rev
0.06
overview
0.06
Activations Density 0.000%