INDEX

Explanations

beh behavior, jk jets, Ans answer

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

zelfde

4.69

ان

4.31

larda

3.75

ת

3.66

ate

3.61

dır

3.58

و

3.56

د

3.52

lardan

3.48

น่า

3.42

POSITIVE LOGITS

은

2.69

 ordeal

2.56

Ա

2.53

至

2.45

ﺍ

2.44

對

2.41

から

2.34

要

2.30

吴

2.30

可以

2.28

Activations Density 1.264%