Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

code snippets

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

，所以

-0.08

 그리고

-0.08

ière

-0.08

 trif

-0.08

 whose

-0.08

且

-0.08

tria

-0.08

 macam

-0.07

iske

-0.07

 antagonist

-0.07

POSITIVE LOGITS

 вариант

0.10

 viable

0.09

 allerdings

0.09

 granul

0.09

 eignet

0.08

 것도

0.08

 eignen

0.08

 Brows

0.08

 бесплат

0.08

 However

0.08

Activations Density 0.072%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact