Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

too

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

actory

-0.09

좀

-0.08

 الانت

-0.08

 interessieren

-0.08

 factory

-0.08

 lediglich

-0.08

 generalmente

-0.08

 заключ

-0.08

 решить

-0.07

wagon

-0.07

POSITIVE LOGITS

ہی

0.08

 flashy

0.08

וכר

0.08

शी

0.08

 obscure

0.08

 surprising

0.07

 fluff

0.07

、不

0.07

 revel

0.07

 sanitized

0.07

Activations Density 0.010%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact