INDEX
Negative Logits
Harrison
-0.08
sas
-0.08
sput
-0.07
Pg
-0.07
Herbert
-0.07
matar
-0.07
fil
-0.07
orts
-0.07
sludge
-0.07
Ramos
-0.07
POSITIVE LOGITS
tert
0.09
prod
0.08
�
0.07
examen
0.07
autos
0.07
NRW
0.07
Mano
0.07
速
0.07
ним
0.07
_pol
0.07
Activations Density 0.001%