INDEX

Explanations

themes related to danger or hazardous conditions

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

cerebras/SlimPajama-627B

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Ð¿Ð¾ÑĪ

-0.07

 Invasion

-0.07

weak

-0.06

Weak

-0.06

eft

-0.06

pector

-0.06

ovice

-0.06

ozor

-0.06

 Weak

-0.06

.setViewport

-0.06

POSITIVE LOGITS

 dangerous

0.17

 dangers

0.15

 danger

0.15

danger

0.14

-danger

0.13

 Dangerous

0.13

 hazardous

0.12

 Ð¾Ð¿Ð°Ñģ

0.11

Danger

0.11

 Danger

0.11

Activations Density 0.159%