INDEX

Explanations

signs of sensitivity or high responsiveness

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 sensitivity

-1.44

 Sensitivity

-1.36

Sensitivity

-1.22

 sensitivities

-1.16

sensitivity

-1.10

 sensibilité

-1.00

 للاسماء

-0.98

 sensibilidad

-0.89

 sensitization

-0.87

MessageTagHelper

-0.85

POSITIVE LOGITS

 sensitive

1.66

Sensitive

1.55

 Sensitive

1.52

sensitive

1.49

 sensibles

0.73

 delicate

0.68

 empfind

0.51

敏感

0.48

ensitive

0.48

lies

0.45

Activations Density 0.004%