Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

comma

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

outfile

-0.08

 mary

-0.08

 مخالف

-0.08

 无限

-0.07

 fucking

-0.07

 khả

-0.07

人成

-0.07

yage

-0.07

ánto

-0.07

 löyt

-0.07

POSITIVE LOGITS

说道

0.14

曰

0.11

：“

0.10

：「

0.10

 বলেন

0.10

lias

0.09

 berkata

0.09

 പറഞ്ഞു

0.09

 şöyle

0.09

 म्हण

0.09

Activations Density 0.082%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact