INDEX

Explanations

movement and transition

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

erto

-0.12

Hos

-0.09

uss

-0.09

aida

-0.09

illard

-0.09

ierz

-0.08

à¸Ļà¸Ħ

-0.08

aval

-0.08

Fro

-0.08

POSITIVE LOGITS

 onto

0.24

 into

0.18

onto

0.16

 INTO

0.14

 vÃło

0.14

åĩºæĿ¥

0.14

 from

0.13

 towards

0.12

_into

0.12

Ont

0.12

Activations Density 0.075%