Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

value

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

」です

-0.11

。此外

-0.09

。不过

-0.08

 입니다

-0.08

”的

-0.08

。这

-0.08

。另外

-0.08

。然而

-0.08

。因此

-0.08

。所以

-0.08

POSITIVE LOGITS

，然后

0.22

，并

0.19

 แล้ว

0.18

했고

0.17

並

0.16

然后

0.15

 sannan

0.15

并

0.15

 చేసి

0.14

 banjur

0.14

Activations Density 0.266%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact