INDEX

Explanations

overly sensitive reactions

New Auto-Interp

Configuration

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

PlotsExplanationShow Test FieldDefault Test Text

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

duk

-0.28

mod

-0.27

è¿ĩ

-0.27

çľĭä¸įæĩĤ

-0.26

medium

-0.26

zek

-0.25

çľĭä¸įåĩº

-0.25

iel

-0.25

èķ¾

-0.25

.medium

-0.25

POSITIVE LOGITS

 concern

0.29

èŃ¦

0.28

-alpha

0.28

Concern

0.28

åī¡

0.28

 keyed

0.27

çĶµä¿¡

0.27

 setActive

0.27

åĪĽæĦı

0.27

-alert

0.27

Activations Density 0.004%