© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
26-LLAMASCOPE-2-LORSA-16K-K64
51

INDEX

Explanations

say "Russian" words

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

(xy

-20.00

荥

-18.63

溧

-18.13

JKLM

-17.25

�

-17.00

ij

-16.88

张某

-16.88

轵

-16.50

陈某

-16.50

ijk

-16.50

POSITIVE LOGITS

 Russian

51.00

 Russia

49.50

俄罗斯

49.00

 Russians

48.50

Russia

46.25

Russian

45.50

 Russ

41.25

普京

41.25

俄

40.00

俄军

39.75

Activations Density 0.157%

No Known Activations