© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
27-LLAMASCOPE-2-LORSA-16K-K64
16310

INDEX

Explanations

say "freedom"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

埭

-19.38

戚

-17.63

沓

-17.25

CEF

-16.88

beck

-16.38

.addClass

-15.94

黏

-15.88

 dõi

-15.75

Kı

-15.63

inka

-15.44

POSITIVE LOGITS

自由

47.75

 freedom

40.75

Freedom

39.75

 autonomy

38.00

自主

37.25

 Freedom

37.00

 liberté

36.25

 자유

35.75

 свобод

35.75

 free

35.50

Activations Density 0.536%

No Known Activations