INDEX

Explanations

News/opinion articles

np_max-act-logits · gemini-2.0-flash

New Auto-Interp

Configuration

andyrdt/saes-qwen2.5-7b-instruct/resid_post_layer_19/trainer_1

Dataset (Dashboard)

Various

Features

131,072

Data Type

float32

Hook Name

blocks.19.hook_resid_post

Architecture

standard

Context Size

1,024

Dataset

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 jealous

-0.08

 removal

-0.08

 likeness

-0.07

优秀

-0.07

 thorough

-0.07

-first

-0.07

 perchè

-0.07

핛

-0.07

∉

-0.07

 Summary

-0.07

POSITIVE LOGITS

esign

0.08

afort

0.07

更何况

0.07

个月

0.07

 básico

0.07

艇

0.06

exp

0.06

ATAR

0.06

()};↵

0.06

琉

0.06

Activations Density 0.056%

News/opinion articles

No Comments

No Known Activations

News/opinion articles

No Comments

No Known Activations