Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

dominates

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

анного

-0.08

 कुनै

-0.08

 புதிய

-0.07

}*/↵

-0.07

üğü

-0.07

 Within

-0.07

}">↵

-0.07

些什么

-0.07

 hansı

-0.07

lvl

-0.07

POSITIVE LOGITS

 dominates

0.16

 dominate

0.14

 dominating

0.14

 dominance

0.14

 predomin

0.14

 dominante

0.13

domin

0.13

 dominant

0.13

많

0.12

 domina

0.12

Activations Density 0.024%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact