INDEX
Negative Logits
hồ
-0.08
AlertDialog
-0.08
instinct
-0.07
bed
-0.07
tụ
-0.07
火锅
-0.07
.Thread
-0.07
_that
-0.07
psychiatrist
-0.07
(feed
-0.07
POSITIVE LOGITS
IG
0.08
enzie
0.07
_NONE
0.07
choose
0.07
줴
0.07
казывает
0.06
(tok
0.06
0.06
WR
0.06
OVERRIDE
0.06
Activations Density 0.047%