© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
26-LLAMASCOPE-2-LORSA-16K-K64
525

INDEX

Explanations

say "Australia"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

镇江

-21.00

 Newark

-20.00

 Santana

-19.63

(tf

-18.63

NECT

-18.38

 Southampton

-18.25

 Harlem

-17.50

 Burlington

-17.38

TF

-16.75

 Essex

-15.94

POSITIVE LOGITS

澳洲

47.75

 Australian

47.00

 Australia

46.50

 Aussie

46.50

 Australians

46.25

澳大利亚

46.25

Australian

44.25

Australia

44.25

澳

39.50

悉尼

38.25

Activations Density 0.148%

No Known Activations