Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

complaining/negative comments

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ization

-0.08

ized

-0.07

 Noon

-0.07

 arti

-0.07

 adip

-0.07

 inférieur

-0.07

eris

-0.07

�

-0.07

 važ

-0.07

 Diagram

-0.07

POSITIVE LOGITS

 contradict

0.10

 आरोप

0.10

 aço

0.09

 contradictory

0.09

 ആരോപ

0.09

кімет

0.09

 विपक्ष

0.09

 विवाद

0.09

 respectful

0.09

 ಆರೋಪ

0.09

Activations Density 0.121%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact