Neuronpedia

APIAssistant AxisNEW Circuit TracerNEW Steer SAE Evals Exports Community Blog Privacy & Terms Contact

INDEX

Explanations

the word "trip"

oai_token-act-pair · gemini-2.0-flash

New Auto-Interp

Configuration

chanind/gemma-2-2b-batch-topk-matryoshka-saes-w-32k-l0-40/standard

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

</thead>

-0.85

 Nadel

-0.79

สือ

-0.74

mopolitan

-0.72

/>\

-0.71

 étoile

-0.70

 Waterman

-0.70

 dandy

-0.70

 Navarro

-0.68

fohlen

-0.67

POSITIVE LOGITS

 Trip

1.17

 trip

1.14

trip

1.05

Trip

1.05

 Trips

0.98

 trips

0.93

trips

0.91

 TRIP

0.88

Trips

0.85

TRIP

0.78

Activations Density 0.018%

No Known Activations

© Neuronpedia 2025

Privacy & Terms Blog GitHub Slack Twitter Contact