INDEX

Explanations

hate speech and illegal activities

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

è´¯å½»

-0.11

åħĭæĭī

-0.10

ä¸įä¸ĭ

-0.10

edio

-0.09

è¯Ĩ

-0.09

åıŁ

-0.09

§è¡Į

-0.08

åĲĦæĸ¹

-0.08

à¸£à¸²

-0.08

 Ð¿Ð°ÑĢÑĤÐ½ÐµÑĢ

-0.08

POSITIVE LOGITS

 unofficial

0.10

esy

0.09

åĨĴ

0.09

 Official

0.09

.openg

0.09

å®ŀè´¨æĢ§

0.09

ä»ħä¾ĽåıĤèĢĥ

0.09

 hÆ¡i

0.09

umping

0.09

ä¸įåºĶè¯¥

0.09

Activations Density 0.212%