INDEX
Negative Logits
J
0.54
EL
0.50
AN
0.49
ie
0.49
LER
0.48
P
0.48
H
0.46
HR
0.46
att
0.45
M
0.45
POSITIVE LOGITS
sapon
0.55
DID
0.49
derogatory
0.49
Gazprom
0.49
Citibank
0.49
fraudulent
0.48
詐
0.48
fraudsters
0.48
ibrate
0.48
newbies
0.47
Activations Density 0.001%