Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

Roman Empire

np_acts-logits-general · gemini-2.5-flash-lite

New Auto-Interp

Configuration

google/gemma-scope-2-27b-it/resid_post/layer_16_width_262k_l0_medium

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 pissed

0.51

 Raptor

0.48

 arbe

0.47

 genero

0.47

 mesmerizing

0.46

 jerk

0.45

нг

0.45

<0xF4>

0.44

JN

0.44

ៀង

0.44

POSITIVE LOGITS

ת

0.63

い

0.61

ла

0.58

т

0.53

اع

0.50

み

0.49

acji

0.49

री

0.49

,|

0.49

ब

0.49

Activations Density 0.000%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact