© Neuronpedia 2026

Privacy & Terms Blog GitHub Slack Twitter Contact

Neuronpedia

Jacobian LensNEW

Natural Language

NEW Assistant AxisNEW Circuit TracerUPDATESteer SAE Evals ExportsAPI Community Blog Privacy & Terms Contact

Home
Qwen3-1.7B
27-LLAMASCOPE-2-LORSA-16K-K64
15639

INDEX

Explanations

say "leak"

unknown · unknown

New Auto-Interp

Top Features by Cosine Similarity

Embeds

Show PlotsShow ExplanationShow ActivationsShow Test FieldShow SteerShow Link

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

ucker

-16.63

orb

-16.38

联社

-15.56

PELL

-15.38

caps

-15.13

Zub

-15.13

ell

-14.38

ib

-14.31

宇

-14.25

 puck

-14.19

POSITIVE LOGITS

 leaks

18.38

 infiltration

18.25

 plagiarism

17.75

leasing

17.00

 Leak

16.50

 invasion

16.38

 Planning

16.25

读懂

16.25

 leaking

16.25

align

16.00

Activations Density 0.529%

No Known Activations