Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

overfitting

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

글

-0.10

ucalyptus

-0.09

 міжнарод

-0.08

暖

-0.08

ാര

-0.08

_HE

-0.08

 Weiß

-0.08

觉

-0.08

国际

-0.08

 restoran

-0.08

POSITIVE LOGITS

 perfectly

0.09

 exact

0.09

 EXACT

0.09

 exactamente

0.08

 flawlessly

0.08

 tevreden

0.08

_exact

0.08

满意

0.08

 даже

0.08

 prácticamente

0.08

Activations Density 0.006%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact