Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

self-defense

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 лип

-0.08

Adv

-0.08

 технология

-0.08

ίνουν

-0.08

 Neue

-0.08

_adv

-0.08

 shuffled

-0.08

ust

-0.07

ज़

-0.07

 Shuffle

-0.07

POSITIVE LOGITS

 हत्या

0.10

 оправ

0.09

performed

0.09

 salute

0.09

 performed

0.09

 retali

0.09

 justified

0.09

 retaliation

0.09

 defensive

0.09

 morally

0.09

Activations Density 0.029%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact