INDEX
Negative Logits
murderers
-0.07
nej
-0.07
tease
-0.07
Canton
-0.07
Goes
-0.07
DBus
-0.07
Nej
-0.07
Pyongyang
-0.06
feelings
-0.06
-campus
-0.06
POSITIVE LOGITS
žen
0.07
shore
0.06
ncy
0.06
huz
0.06
<_
0.06
Exped
0.06
uft
0.06
onnement
0.06
.metrics
0.06
adequately
0.06
Activations Density 0.001%