INDEX

Explanations

instances of criminal activity or deceitful behavior

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

cerebras/SlimPajama-627B

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

à¸§à¸ģ

-0.08

ivent

-0.07

 helicopt

-0.07

orex

-0.07

ê´

-0.07

ãĥ³ãĥĢ

-0.07

setFlash

-0.07

ìĭ¸

-0.07

 ÑĨÑĸÐ»

-0.07

eking

-0.06

POSITIVE LOGITS

0.09

 ðŁ

0.06

SB

0.06

ibold

0.06

 neighbors

0.06

 ditch

0.06

ugar

0.06

 state

0.06

 neighbor

0.06

Activations Density 0.004%