INDEX

Explanations

physical attributes and duty

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 subjective

-0.15

æĦŁæĥħ

-0.11

Naw

-0.11

alian

-0.10

 manned

-0.09

Reached

-0.09

 outr

-0.09

reck

-0.09

 Kane

-0.09

 unarmed

-0.09

POSITIVE LOGITS

 duty

0.17

 transaction

0.15

 intellect

0.15

 imperson

0.14

 Duty

0.14

dut

0.14

 formal

0.14

-duty

0.12

 practical

0.12

 physical

0.12

Activations Density 0.110%