Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

differences

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 busca

-0.08

раждан

-0.08

 resides

-0.08

 வக

-0.08

 спут

-0.07

 recinto

-0.07

credi

-0.07

 reside

-0.07

 competitions

-0.07

có

-0.07

POSITIVE LOGITS

 Unterschiede

0.10

 Differences

0.09

 nuances

0.09

 adaptar

0.09

 différences

0.09

 differing

0.09

 unterscheiden

0.09

 differences

0.08

 diferenças

0.08

Dif

0.08

Activations Density 0.047%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact