INDEX
Negative Logits
Erick
-0.08
Cosmic
-0.08
CSC
-0.07
delt
-0.07
用人
-0.07
concede
-0.07
GR
-0.07
spy
-0.07
teşekkür
-0.06
Attempt
-0.06
POSITIVE LOGITS
joint
0.07
bu
0.07
等多种
0.07
(public
0.07
0.07
public
0.07
督促
0.07
消防安全
0.06
_io
0.06
--------------------------------------------------------------------------↵
0.06
Activations Density 0.002%