© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3.5-4B
15-RES-MATRYOSHKA-65K
19649

INDEX

Explanations

description

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Top Features by Cosine Similarity

Configuration

decoderesearch/qwen-3.5-saes/qwen-3.5-4b

Prompts (Dashboard)

16,384 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

No Configuration Found

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

rette

-0.06

éķ

-0.06

 juste

-0.06

à®£à¯įà®Łà¯ģ

-0.06

umba

-0.05

ogi

-0.05

endorf

-0.05

Om

-0.05

 capital

-0.05

ucat

-0.05

POSITIVE LOGITS

bas

0.06

ä¸ĬåĽ¾

0.06

ÑĢÐ¾

0.06

holds

0.06

fare

0.05

ÐµÑģÑĤÐ°

0.05

schlag

0.05

 Rabu

0.05

 Sache

0.05

à¸¥à¸³

0.05

Activations Density 0.007%

No Known Activations