INDEX

Explanations

sarcastic or ironically positive

np_acts-logits-general · gemini-2.5-flash-lite

sarcastic, snarky conversational asides and emphatic interjections that signal irony or attitude.

oai_token-act-pair · gpt-5 Triggered by @vetterc0

Sarcastic or ironic phrases, often marked by specific words like "Oh," "wonderful," "fantastic," "fun," or "interesting," typically used to express the opposite of their literal meaning, frequently appearing in contexts involving feigned enthusiasm, mock politeness, or humorous dismissal of requests or situations.

eleuther_acts_top20 · claude-4-5-sonnet Triggered by @jamesnaruto04

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_31_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 metaphorical

0.42

obs

0.39

 theta

0.37

次元

0.37

IPS

0.37

 emergence

0.37

 steroids

0.37

اتج

0.37

 span

0.36

 metaphors

0.36

POSITIVE LOGITS

 infallible

0.52

perfect

0.50

 perfetta

0.46

 innocent

0.46

🤡

0.46

 foolproof

0.45

 sempurna

0.45

 perfettamente

0.45

 perfeita

0.44

하겠습니다

0.43

Activations Density 0.075%

sarcastic or ironically positive

sarcastic, snarky conversational asides and emphatic interjections that signal irony or attitude.

No Comments

No Known Activations

sarcastic or ironically positive

sarcastic, snarky conversational asides and emphatic interjections that signal irony or attitude.

No Comments

No Known Activations