INDEX

Explanations

discrimination and unfair treatment

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 agama

-0.96

 néanmoins

-0.93

Inhalte

-0.92

Spenden

-0.91

arschijnlijk

-0.88

licability

-0.86

iper

-0.85

ANCEL

-0.83

 PROBLE

-0.83

 освобо

-0.82

POSITIVE LOGITS

 treatment

1.39

 unfair

1.06

 promised

1.02

 discrimination

0.95

 treated

0.91

 discriminated

0.88

待遇

0.86

 względem

0.85

 during

0.84

 відчу

0.84

Activations Density 0.086%