INDEX

Explanations

waterfalls and delete clauses

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

啃

0.41

 অভিযুক্ত

0.39

pts

0.39

🦂

0.39

 зло

0.38

 पॉली

0.38

 graveyard

0.38

 phenomen

0.37

 clay

0.37

 قبر

0.37

POSITIVE LOGITS

 waterfall

1.61

 waterfalls

1.54

 cascades

1.52

 cascade

1.48

Waterfall

1.43

 cascading

1.42

 Waterfall

1.40

Cascade

1.34

瀑

1.34

cascade

1.30

Activations Density 0.011%