Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Definition or meaning

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 chimp

-0.09

 subreddit

-0.09

 homeless

-0.09

 Nationwide

-0.09

病毒

-0.08

 கலந்து

-0.08

 xổ

-0.08

 Remix

-0.08

 oath

-0.08

reddit

-0.08

POSITIVE LOGITS

 refers

0.12

 referring

0.11

 geometric

0.10

 circumference

0.10

 refer

0.09

 radius

0.09

 width

0.09

 distances

0.08

 planar

0.08

(radius

0.08

Activations Density 0.027%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact