INDEX

Explanations

patriarchy and misogyny

New Auto-Interp

Configuration

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Bekannt

-0.08

 فعالیت

-0.08

CEL

-0.08

ocha

-0.08

فن

-0.08

طني

-0.07

 Freib

-0.07

 Nigerians

-0.07

etable

-0.07

 Compile

-0.07

POSITIVE LOGITS

 sexist

0.10

 sexism

0.10

 श्रेष्ठ

0.09

 misog

0.09

ичество

0.08

 gender

0.08

 જાત

0.08

霸

0.08

 слаб

0.08

 sarcas

0.08

Activations Density 0.025%