Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

violence and assault

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 filtering

-0.09

Filtering

-0.09

 leak

-0.09

 Loader

-0.08

uart

-0.08

 Filtering

-0.08

 substitution

-0.08

漏

-0.08

.loader

-0.08

DVR

-0.08

POSITIVE LOGITS

 violence

0.12

 bruis

0.12

 assault

0.10

 injuries

0.10

 violently

0.10

 fists

0.10

 körper

0.10

 brutality

0.10

 violent

0.09

 inflicted

0.09

Activations Density 0.047%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact