© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Jacobian LensNEW

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
27-LLAMASCOPE-2-LORSA-16K-K64
15666

INDEX

Explanations

say "oxygen"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 dạy

-17.25

 vandalism

-17.13

法官

-16.75

 worm

-16.75

 MenuItem

-16.63

 Roch

-16.25

elman

-16.13

椿

-15.63

ContextMenu

-15.50

曼城

-15.50

POSITIVE LOGITS

 oxygen

28.63

氧气

28.63

氧

27.25

 Oxygen

26.88

 breathable

24.50

oxid

22.13

 saturation

22.13

 breathe

21.25

饱和

20.75

氧化

20.63

Activations Density 0.122%

No Known Activations