Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

permission

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 demora

-0.08

 Salaam

-0.08

gil

-0.07

ivik

-0.07

 Olympia

-0.07

-0.07

 Mounted

-0.07

rest

-0.07

 Falls

-0.07

 funcionario

-0.07

POSITIVE LOGITS

 तय

0.08

 toegang

0.07

 अत्य

0.07

 predefined

0.07

 truy

0.07

 مسب

0.07

barer

0.07

 ಅತ್ಯ

0.07

kasten

0.07

 மிகவும்

0.07

Activations Density 0.002%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact