INDEX

Explanations

standoff, danger, confrontation, risk

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 ویتامین

-1.06

to

-1.03

-0.98

 these

-0.97

 årene

-0.95

pośred

-0.91

for

-0.91

 minhas

-0.90

 Chaque

-0.87

POSITIVE LOGITS

 dangerous

1.40

 danger

1.21

 risks

1.09

 خطر

1.07

 risky

1.06

URIDAD

1.05

 safety

1.05

 configuration

1.04

 risk

1.04

 negotiations

1.03

Activations Density 0.029%