INDEX
Negative Logits
Lego
-0.08
wollen
-0.07
翌
-0.07
тож
-0.07
прод
-0.07
Folk
-0.07
neck
-0.07
sağ
-0.07
אם
-0.07
\Web
-0.06
POSITIVE LOGITS
出动
0.07
eries
0.07
ISE
0.07
explosions
0.07
iv
0.07
urat
0.07
蹀
0.07
绝对不会
0.06
场面
0.06
omit
0.06
Activations Density 0.005%