Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

despite

np_max-act · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_11/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 näiteks

-0.07

teg

-0.07

 Wilson

-0.07

Policy

-0.07

.leetcode

-0.07

 toev

-0.07

 bijvoorbeeld

-0.07

ೆಯಾಗ

-0.07

 contributions

-0.07

Parameter

-0.07

POSITIVE LOGITS

 Помимо

0.10

 demikian

0.10

 এসব

0.09

上述

0.09

如此

0.09

 Besides

0.08

明确

0.08

这些

0.08

 enjoyable

0.08

 همین

0.08

Activations Density 0.032%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact