INDEX
Negative Logits
oleto
-0.10
fraudulent
-0.08
nø
-0.07
quente
-0.07
infinito
-0.07
industr
-0.07
ounty
-0.07
squeezed
-0.07
promete
-0.07
scams
-0.07
POSITIVE LOGITS
mer
0.08
safeguard
0.08
الأن
0.08
Sob
0.08
функцию
0.08
なお
0.08
0.08
mers
0.07
conting
0.07
.gz
0.07
Activations Density 0.020%