Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

math problems

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Diagonal

-0.08

 flog

-0.08

 અટ

-0.08

 fruct

-0.07

 પાસે

-0.07

 સુંદર

-0.07

 બચ

-0.07

.Generic

-0.07

 arrêt

-0.07

 nghe

-0.07

POSITIVE LOGITS

，与

0.08

后的

0.07

 relatif

0.07

 المو

0.07

到账

0.07

rement

0.07

/+

0.07

 verkrijgen

0.07

/A

0.07

。↵↵

0.07

Activations Density 0.062%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact