INDEX
Negative Logits
良好
0.48
be
0.46
疲
0.45
是否
0.44
IM
0.43
NP
0.42
as
0.41
IR
0.41
实施
0.41
ELIST
0.41
POSITIVE LOGITS
collusion
0.48
Sebelum
0.47
pessoa
0.45
Ссы
0.44
微软雅黑
0.43
Pada
0.43
isiä
0.43
鹿児
0.43
lemongrass
0.43
satirical
0.42
Activations Density 0.000%