INDEX

Explanations

human rights, equality, discrimination

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 fluence

-0.76

 scipy

-0.76

STAN

-0.75

 Emission

-0.73

uo

-0.72

 vectra

-0.71

XXL

-0.70

orgeous

-0.70

 roadster

-0.70

 clarinet

-0.70

POSITIVE LOGITS

 discrimination

1.93

 Discrimination

1.81

discrimination

1.57

 equality

1.53

 discriminación

1.42

 discriminatory

1.41

 Equality

1.40

 Human

1.39

 Equal

1.35

Equal

1.34

Activations Density 0.020%