Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

|

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 encompasses

-0.08

 encompassing

-0.08

 политики

-0.08

 umfasst

-0.08

ностей

-0.07

/par

-0.07

.configure

-0.07

Vec

-0.07

ı

-0.07

/connect

-0.07

POSITIVE LOGITS

eo

0.08

 Strawberry

0.08

�

0.08

 Addiction

0.08

 ბოლო

0.08

ongan

0.08

 glän

0.08

هادة

0.08

 hiervoor

0.08

 earns

0.08

Activations Density 0.035%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact