© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Jacobian LensNEW

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
26-LLAMASCOPE-2-LORSA-16K-K64
742

INDEX

Explanations

say Wales

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Dallas

-26.25

浦东

-26.13

长安

-22.38

西安

-22.25

 Boca

-21.63

 Tehran

-21.50

bian

-21.50

在上海

-20.75

 Iranians

-20.13

 Gian

-19.75

POSITIVE LOGITS

 Welsh

51.75

 Wales

47.25

 Cardiff

33.75

 Swansea

29.75

Wel

29.13

WV

28.25

滇

27.63

佤

27.50

彝

27.25

洱

25.38

Activations Density 0.043%

No Known Activations