Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

weird, odd, strange

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_40_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ณฑ์

0.39

Ac

0.37

に示す

0.37

Rav

0.35

বাহিত

0.35

 क्लियर

0.34

שׁ

0.34

別

0.34

ted

0.33

 दिखाना

0.33

POSITIVE LOGITS

 weird

1.16

odd

1.05

 strange

1.05

奇怪

1.00

weird

0.98

 Weird

0.95

 oddly

0.93

 bizarre

0.93

 quirks

0.93

 quirk

0.90

Activations Density 0.018%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact