Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

text editing/generation

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Armor

-0.08

កម្ម

-0.08

<header

-0.07

(inst

-0.07

 conseillé

-0.07

 Inform

-0.07

 informar

-0.07

 investments

-0.07

 cortical

-0.07

roi

-0.07

POSITIVE LOGITS

 trailing

0.12

 koń

0.10

.endswith

0.10

最後

0.10

尾

0.09

ท้าย

0.09

Suffix

0.09

 конце

0.09

_SUFFIX

0.09

最后

0.09

Activations Density 0.069%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact