INDEX

Explanations

regarding your question

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 [âĢ¦

-0.09

%[

-0.09

 salopes

-0.08

 ********************************************************

-0.08

.osgi

-0.08

 ÂŃ

-0.07

 prostituer

-0.07

é¡µéĿ¢åŃĺæ¡£å¤ĩä»½

-0.07

-Ð»Ð¸Ð±Ð¾

-0.07

 langu

-0.07

POSITIVE LOGITS

odore

0.10

adays

0.08

atre

0.08

 Ä°mpar

0.07

pard

0.07

orem

0.07

ãģĹãģĭãģĹ

0.07

ÐĴÐ¡

0.07

istrovstvÃŃ

0.07

 ulaÅŁ

0.07

Activations Density 3.390%