INDEX

Explanations

first person statements

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

alth

-0.13

 reck

-0.13

 presumed

-0.10

áº¹n

-0.10

_DRV

-0.09

 Maze

-0.09

reck

-0.09

Î»ÎµÏħ

-0.09

NewProp

-0.09

orgia

-0.08

POSITIVE LOGITS

 mean

0.16

 suspect

0.14

0.11

 Mean

0.11

.e

0.11

 suspects

0.11

sp

0.10

hab

0.10

pv

0.10

’;m

0.10

Activations Density 0.110%