INDEX

Explanations

behavior and self-control

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Ð¿Ð¾Ð±Ð°

-0.11

 Ð·Ð²Ð¸ÑĩÐ°Ð¹

-0.10

ipo

-0.10

oya

-0.09

ombok

-0.09

ites

-0.09

ç·ł

-0.09

 Reeves

-0.08

itory

-0.08

ï¾ı

-0.08

POSITIVE LOGITS

Ð½Ð°Ð´Ð»ÐµÐ¶

0.14

âĦĸâĦĸ

0.14

 Ð¸

0.13

ÌĨ

0.10

à¹ģà¸¥à¸°à¸ģà¸²à¸£

0.10

ãĢģé«ĺ

0.10

 nuest

0.09

 coquine

0.09

Ñİ

0.09

ALER

0.09

Activations Density 0.148%