Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

similarity in different languages

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-gpt-oss-20b/resid_post_layer_15/trainer_0

Dataset (Dashboard)

Various

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 остается

-0.09

 короб

-0.09

历山大发

-0.09

astikan

-0.09

 edilen

-0.09

 takaisin

-0.09

 puhul

-0.08

 akeh

-0.08

 көптеген

-0.08

 nuair

-0.08

POSITIVE LOGITS

 ähnliche

0.11

 gespecialiseerd

0.10

 similar

0.10

符合

0.10

对此

0.10

 phù

0.09

 similares

0.09

类似

0.09

 embody

0.09

能够

0.09

Activations Density 0.051%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact