INDEX
Negative Logits
WWW
-0.09
mow
-0.09
llllllll
-0.09
melody
-0.08
pedestrian
-0.08
desemp
-0.08
兼职
-0.08
Fond
-0.08
mian
-0.08
uta
-0.08
POSITIVE LOGITS
নিরাপ
0.10
safety
0.10
steam
0.09
Safety
0.09
安全
0.09
boilers
0.09
Safety
0.09
.exceptions
0.09
armored
0.08
ciphertext
0.08
Activations Density 0.016%