Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

favorite

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 verh

-0.09

 Permanent

-0.08

 пространства

-0.08

Permanent

-0.08

 demi

-0.08

ahs

-0.08

 furnished

-0.08

يح

-0.07

alem

-0.07

Cin

-0.07

POSITIVE LOGITS

avorite

0.09

 hashtags

0.08

 만큼

0.08

favorite

0.08

Obl

0.08

 favorite

0.08

 favoritas

0.07

 trae

0.07

 ప్రముఖ

0.07

estors

0.07

Activations Density 0.026%

No Known Activations

© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact