© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Jacobian LensNEW

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
27-LLAMASCOPE-2-LORSA-16K-K64
15622

INDEX

Explanations

say "social media terms"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 definition

-17.25

 define

-16.38

 definitions

-16.00

 Definition

-15.94

definition

-15.88

-definition

-15.63

defined

-15.63

apes

-15.38

 Marl

-15.13

-height

-15.00

POSITIVE LOGITS

公众号

17.50

朋友圈

17.50

频道

17.25

上传

17.00

微信群

16.75

QQ

16.63

Updates

16.63

urus

16.38

专栏

16.25

干货

16.25

Activations Density 0.227%

No Known Activations