Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

derivatives and equations

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 পাশাপাশি

-0.08

 thời

-0.08

 trị

-0.07

 stretch

-0.07

 reconnu

-0.07

িটির

-0.07

 válida

-0.07

 আমরা

-0.07

 it'll

-0.07

িটি

-0.07

POSITIVE LOGITS

 makk

0.08

Sab

0.08

 habt

0.08

 distracted

0.08

Has

0.08

 zabo

0.08

(cancel

0.08

eds

0.08

 liefst

0.08

(GET

0.08

Activations Density 0.003%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact