INDEX
Negative Logits
censor
-0.08
zende
-0.08
Mach
-0.08
Lik
-0.08
transp
-0.07
قاط
-0.07
enten
-0.07
ulan
-0.07
naše
-0.07
’re
-0.07
POSITIVE LOGITS
0.08
വി�
0.08
ương
0.08
raised
0.07
ọdụ
0.07
parameters
0.07
familial
0.07
Hillary
0.07
ount
0.07
=value
0.07
Activations Density 0.000%