INDEX

Explanations

bending, squatting, reaching

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-0.10

 Clim

-0.09

 shoulder

-0.09

rette

-0.09

 climbs

-0.09

 swim

-0.09

ornado

-0.09

icus

-0.09

 bumps

-0.09

POSITIVE LOGITS

sto

0.42

 bent

0.39

 bending

0.39

 bend

0.38

 Bend

0.34

 bends

0.32

 squat

0.32

Sto

0.31

sto

0.27

 Bent

0.26

Activations Density 0.049%