Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

scientific evidence

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

用

-0.09

كت

-0.08

 Writer

-0.08

純

-0.08

 Writers

-0.08

 politely

-0.07

 Advisor

-0.07

 Disclaimer

-0.07

께

-0.07

poser

-0.07

POSITIVE LOGITS

 corrobor

0.13

 testimon

0.12

 beobachten

0.11

 beob

0.10

 surveys

0.09

 testimony

0.09

 calor

0.09

_tests

0.09

 evidence

0.09

观察

0.09

Activations Density 0.034%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact