Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

xor

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 marche

-0.08

 грам

-0.08

 मूल

-0.08

 وما

-0.08

 चुका

-0.07

 auditions

-0.07

 Amen

-0.07

 చేర

-0.07

Via

-0.07

êtres

-0.07

POSITIVE LOGITS

XOR

0.08

Resistance

0.08

Exclusive

0.08

holes

0.08

hole

0.08

 inorganic

0.07

�

0.07

 করলে

0.07

_frequency

0.07

_result

0.07

Activations Density 0.003%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact