Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Start of text/conversations

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 تست

-0.08

িদ

-0.07

ước

-0.07

 swirling

-0.07

िता

-0.07

 misconceptions

-0.07

 understandable

-0.07

취

-0.07

 Vors

-0.07

zun

-0.07

POSITIVE LOGITS

nd

0.12

（二

0.12

-thirds

0.11

第二

0.11

 രണ്ടാം

0.10

 দ্বিত

0.10

 second

0.10

second

0.10

 zweiten

0.10

.secondary

0.09

Activations Density 0.141%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact