INDEX

Explanations

) ways

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵

1.19

詃

1.18

↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵

1.15

↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵

1.14

 ponieważ

1.13

↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵

1.12

 необхідно

1.12

↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵

1.12

 الذي

1.11

僌

1.11

POSITIVE LOGITS

 heuristics

1.18

 obfusc

1.17

 reasonable

1.14

 idiosyncratic

1.12

 egregious

1.06

 idiosync

1.05

 heuristic

1.04

 plaus

1.03

 trivially

1.02

 reasonably

1.02

Activations Density 1.328%