INDEX

Explanations

gay pride and rights

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 heterosexual

-0.10

 LGBTQ

-0.10

 homophobic

-0.10

avin

-0.10

 shemale

-0.10

 homosexuals

-0.10

 gays

-0.09

asl

-0.09

 Gender

-0.09

 LGBT

-0.09

POSITIVE LOGITS

 pride

0.18

-friendly

0.17

 friendly

0.15

 Pride

0.15

friendly

0.14

/trans

0.14

lord

0.14

 rights

0.13

andles

0.13

Friendly

0.13

Activations Density 0.049%