INDEX

Explanations

women's expectations and equality

np_acts-logits-general · gemini-2.5-flash-lite

sexist and demeaning language regarding gender

np_acts-logits-general · gemini-2.5-flash-lite

feminist

np_max-act-logits · claude-4-5-sonnet Triggered by @skarne

New Auto-Interp

Configuration

google/gemma-scope-2-27b-pt/resid_post/layer_40_width_16k_l0_medium

Prompts (Dashboard)

392,802 prompts, 256 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 شہریوں

0.44

 অভিনেতা

0.42

 youth

0.42

ertel

0.40

𝚢

0.40

 മഴ

0.39

icl

0.39

🌦

0.39

bapt

0.38

炳

0.38

POSITIVE LOGITS

 feminist

2.05

 feminists

1.99

 Feminist

1.98

 feminism

1.89

 Women

1.78

 Femin

1.77

Women

1.75

 femin

1.73

 женщин

1.66

 women

1.65

Activations Density 0.353%

women's expectations and equality

sexist and demeaning language regarding gender

feminist

No Comments

No Known Activations

women's expectations and equality

sexist and demeaning language regarding gender

feminist

No Comments

No Known Activations