INDEX

Explanations

ambiguity and disambiguation

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

峼

0.45

ffiti

0.43

ষ্ণ

0.43

レール

0.40

 χαρακτη

0.39

温

0.38

溫

0.38

 koncent

0.38

 nutrit

0.37

шками

0.37

POSITIVE LOGITS

 ambiguity

2.50

 ambiguous

2.41

 ambiguities

2.41

 disamb

1.98

 ambigu

1.98

Amb

1.69

Amb

1.63

disamb

1.61

曖

1.53

 unambiguous

1.52

Activations Density 0.043%