Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

ку

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

alian

-0.09

場合

-0.08

-slip

-0.08

CRE

-0.08

情况下

-0.08

-0.07

 destinadas

-0.07

でしょう

-0.07

ਮੀ

-0.07

 destinado

-0.07

POSITIVE LOGITS

 fairly

0.10

 достаточно

0.09

কে

0.09

 যেন

0.08

 व्यव

0.08

 مجرد

0.08

 approachable

0.08

 더욱

0.08

갖

0.08

 একটু

0.08

Activations Density 0.161%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact