Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

play

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 oppervlak

-0.09

 réjou

-0.09

�

-0.08

 Alps

-0.08

 asio

-0.08

‰

-0.08

ुङ

-0.08

 joys

-0.08

 alpine

-0.08

山县

-0.08

POSITIVE LOGITS

 onwards

0.09

 onward

0.08

GT

0.08

 предложение

0.08

 Guangzhou

0.08

_len

0.08

वाही

0.08

 ситуацию

0.07

-ending

0.07

 下一

0.07

Activations Density 0.033%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact