INDEX

Explanations

No Explanations Found

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

</div>

0.58

</span>

0.56

 nome

0.52

}}

0.52

*/

0.52

0.51

{'

0.50

{$

0.49

%}

0.48

0.47

POSITIVE LOGITS

 predictability

0.69

 complacency

0.65

 spontaneity

0.63

 criminality

0.62

<unused2069>

0.62

 multidiscipl

0.61

 adversity

0.61

 immediacy

0.61

 activism

0.60

<unused450>

0.60

Activations Density 0.944%

No Known Activations