© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Jacobian LensNEW

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
26-LLAMASCOPE-2-LORSA-16K-K64
730

INDEX

Explanations

say "Roman"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Kotlin

-25.88

 Greenville

-25.25

 Eston

-24.25

在深圳

-23.50

 kotlin

-22.88

倓

-22.88

 QtCore

-22.75

(QtCore

-22.63

HK

-22.63

马来西亚

-22.25

POSITIVE LOGITS

罗马

51.25

 Roman

47.25

 Rome

45.25

Roman

43.00

 Romans

42.75

 roman

39.25

 Roma

36.50

ROM

34.75

 Pompe

33.75

意大利

32.25

Activations Density 0.627%

No Known Activations