INDEX
Negative Logits
바라
-0.08
zot
-0.07
rollout
-0.07
Kel
-0.07
batt
-0.07
cared
-0.07
Homepage
-0.07
уман
-0.07
sput
-0.07
milestones
-0.07
POSITIVE LOGITS
poisonous
0.13
毒
0.12
fraudulent
0.11
toxins
0.11
诈骗
0.11
toxic
0.11
harmful
0.11
非法
0.10
दू
0.10
counterfeit
0.10
Activations Density 0.010%