INDEX

Explanations

unchanged, unsafeguarded, unhanged

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 nouns

0.89

 роботи

0.89

 tweezers

0.86

лото

0.85

 novella

0.82

riol

0.79

roidism

0.77

낑

0.77

 Lodge

0.77

boa

0.76

POSITIVE LOGITS

 deny

2.03

vant

1.88

 terminated

1.77

 interrump

1.68

 있었

1.66

 erroneously

1.64

 objected

1.63

arit

1.62

 betroffen

1.61

affected

1.60

Activations Density 0.000%