Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Blasphemy

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

Powered

-0.07

ubble

-0.07

 béné

-0.07

 pretrained

-0.07

ijan

-0.07

pag

-0.07

gt

-0.07

usap

-0.07

 pare

-0.07

 pprint

-0.07

POSITIVE LOGITS

 disrespect

0.15

 наруш

0.12

 violates

0.10

 jeopard

0.10

 underm

0.10

 disrupt

0.10

 terhadap

0.10

 disrupting

0.09

 offend

0.09

 нарушения

0.09

Activations Density 0.029%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact