Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

must

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ijing

-0.09

 مشابه

-0.08

-stage

-0.08

касці

-0.08

касць

-0.08

ikuva

-0.08

how

-0.08

方面

-0.08

antage

-0.08

าษ

-0.08

POSITIVE LOGITS

 verplicht

0.10

 NEVER

0.08

 MUST

0.08

INV

0.08

തിന്

0.08

 intoxic

0.08

 обязатель

0.08

 debes

0.08

 solltest

0.08

 forgot

0.08

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact