Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

marks and negative

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

-extra

-0.08

 influencing

-0.08

 Translate

-0.08

chrome

-0.07

 Android

-0.07

$html

-0.07

bw

-0.07

 Ninja

-0.07

html

-0.07

 menus

-0.07

POSITIVE LOGITS

 penalties

0.09

 पाकिस्तान

0.09

 खिलाफ

0.08

 rinc

0.08

 arrib

0.08

处罚

0.08

 rechaz

0.08

 पंजाब

0.08

 सकारात्मक

0.08

 السل

0.08

Activations Density 0.003%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact