INDEX
Negative Logits
hal
-0.07
ADDE
-0.06
619
-0.06
燕
-0.06
Humb
-0.06
illance
-0.06
Hal
-0.06
porch
-0.06
xnxx
-0.06
ύ
-0.06
POSITIVE LOGITS
(names
0.07
candidate
0.07
phishing
0.06
003
0.06
Match
0.06
unrecognized
0.06
jax
0.06
fraction
0.06
%.
0.06
clearer
0.06
Activations Density 0.001%