INDEX

Explanations

harm to multiple parties

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

वारीत

0.79

 కనిప

0.74

 basics

0.72

ปัญหา

0.72

 sesuai

0.72

 พร้อม

0.71

ształ

0.71

니

0.70

ลักษณะ

0.70

 કપ

0.69

POSITIVE LOGITS

 both

1.42

 bystanders

1.36

 onlookers

1.35

both

1.32

 recipients

1.23

 consumers

1.21

 stakeholders

1.20

 participants

1.19

 både

1.15

 everyone

1.13

Activations Density 0.281%