Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

first

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

grades

-0.08

 Admiral

-0.08

west

-0.08

angos

-0.08

gradation

-0.08

-West

-0.07

 tils

-0.07

 interconnected

-0.07

 underst

-0.07

 קיימ

-0.07

POSITIVE LOGITS

 lần

0.10

 থেকেই

0.10

 વખત

0.10

 dəfə

0.10

第一次

0.10

踏

0.10

 모습을

0.09

 ಬಾರಿ

0.09

 पदार

0.09

时期

0.09

Activations Density 0.043%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact