Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Arithmetic/Mathematics

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 filmmakers

-0.08

 পুলিশের

-0.08

 حلق

-0.08

ակի

-0.08

сыл

-0.08

ೃತ್ತ

-0.08

USP

-0.08

 گرفتار

-0.08

repid

-0.08

ustada

-0.07

POSITIVE LOGITS

 Addition

0.11

.vstack

0.10

 addition

0.10

 össze

0.09

Subtract

0.09

Addition

0.09

 Bedding

0.09

_bottom

0.09

 stacked

0.09

 Lines

0.09

Activations Density 0.028%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact