Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

comparison

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

bell

-0.08

 retali

-0.08

 instructions

-0.08

 підт

-0.08

 admon

-0.08

 sophisticated

-0.08

 reprim

-0.08

 Wayne

-0.08

 ті

-0.07

 replen

-0.07

POSITIVE LOGITS

 താര

0.12

 തമ്മ

0.10

 срав

0.10

 بينها

0.10

 비교

0.10

 comparison

0.09

比较

0.09

 hinsichtlich

0.09

('',

0.09

Compare

0.09

Activations Density 0.025%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact