Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

multiple languages

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ственное

-0.09

rè

-0.09

锡

-0.08

ственную

-0.08

但

-0.08

 വ്യക്തമാക്കി

-0.08

nable

-0.07

FFER

-0.07

 impress

-0.07

Nt

-0.07

POSITIVE LOGITS

nor

0.09

 unbedingt

0.09

 necessariamente

0.08

 Nevertheless

0.07

 lingua

0.07

نف

0.07

 Benefits

0.07

 weitem

0.07

 funcionando

0.07

 necessarily

0.07

Activations Density 0.123%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact