INDEX

Explanations

Alice, equality, treated

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Hooker

1.10

 Joss

1.09

 Benson

1.09

 Jessica

1.07

 Belling

1.06

 Bong

1.05

CJ

1.04

拔

1.04

Jessica

1.03

 Villar

1.02

POSITIVE LOGITS

 equality

0.61

Alice

0.59

ikesh

0.58

Equality

0.58

treated

0.56

 Arist

0.56

 Equality

0.56

 Alice

0.55

gir

0.54

idle

0.54

Activations Density 1.724%