Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

quantified statements

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_31_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 विभिन्न

0.46

easily

0.46

 épaisse

0.46

𒀸

0.46

 காட்சி

0.46

찾

0.45

 fácil

0.44

 diminue

0.44

𝐬

0.44

 राक्ष

0.43

POSITIVE LOGITS

 networking

0.39

 http

0.38

めに

0.37

ഭം

0.37

 lines

0.37

 Services

0.37

 networks

0.36

HAS

0.36

REFERENCES

0.35

 welfare

0.35

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact