INDEX

Explanations

phrases related to discrimination and equality

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

cerebras/SlimPajama-627B

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ÑĤÐ¸Ð½

-0.08

amil

-0.07

Å¾it

-0.07

ingroup

-0.07

ojÃŃ

-0.07

eyi

-0.07

Ð¶ÐµÐ½ÑĮ

-0.07

PÅĻi

-0.07

 ëª¨ëĳĲ

-0.07

 Rosenstein

-0.07

POSITIVE LOGITS

or

0.07

ado

0.06

 whether

0.06

æĺ¯åĲ¦

0.06

 alone

0.06

 lack

0.06

 conscience

0.06

 merely

0.06

 perceived

0.06

 observ

0.05

Activations Density 0.009%