© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
26-LLAMASCOPE-2-LORSA-16K-K64
95

INDEX

Explanations

say "go" words

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

濉

-24.75

Chicago

-24.25

 Chicago

-24.00

芝加哥

-23.38

 Minnesota

-23.25

德州

-21.88

蚌埠

-21.88

合肥

-21.63

阜阳

-21.25

CST

-20.75

POSITIVE LOGITS

 goat

36.75

 Goat

33.25

 goats

32.75

 Georgian

29.13

南非

28.63

Goa

25.75

 Alps

24.88

GO

24.63

GO

24.00

蓟

23.50

Activations Density 0.053%

No Known Activations