Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Acknowledgments

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 undercover

-0.08

kun

-0.08

 Height

-0.08

 anabolic

-0.07

átil

-0.07

 armored

-0.07

 height

-0.07

 grilled

-0.07

 agenda

-0.07

穿

-0.07

POSITIVE LOGITS

 thanking

0.13

感谢

0.13

cimientos

0.12

 gratitude

0.12

 remerc

0.11

 heartfelt

0.10

 acknowled

0.10

 thanked

0.10

 agrade

0.10

 agradecer

0.10

Activations Density 0.013%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact