INDEX
Negative Logits
coups
-0.09
Mandela
-0.09
Neu
-0.08
neurological
-0.08
create
-0.08
委员会
-0.08
schwarz
-0.08
знаю
-0.08
дли
-0.08
.backward
-0.08
POSITIVE LOGITS
excited
0.08
mildly
0.08
rosy
0.08
tasa
0.07
¡
0.07
ま
0.07
uchsia
0.07
Mimi
0.07
stereotypes
0.07
来
0.07
Activations Density 0.019%