INDEX

Explanations

phrases related to avoiding danger or getting out of a situation

oai_token-act-pair · gpt-4o-mini Triggered by @bot

New Auto-Interp

Configuration

Juliushanhanhan/llama-3-8b-it-res/blocks.25.hook_resid_post

Features

65,536

Data Type

float32

Hook Name

blocks.25.hook_resid_post

Hook Layer

Architecture

gated

Context Size

1,024

Dataset

Juliushanhanhan/openwebtext-1b-llama3-tokenized-cxt-1024

Activation Function

relu

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

anlÄ±

-0.14

ogra

-0.14

Ð»ÐµÑĤ

-0.14

chine

-0.13

bakan

-0.13

lav

-0.13

azio

-0.13

ardÄ±r

-0.13

icators

-0.13

POSITIVE LOGITS

 Dodge

0.29

 dodge

0.24

 alive

0.24

alive

0.23

 here

0.23

 Alive

0.22

Alive

0.20

ensa

0.19

 town

0.19

 there

0.19

Activations Density 0.019%

phrases related to avoiding danger or getting out of a situation

No Comments

No Known Activations

phrases related to avoiding danger or getting out of a situation

No Comments

No Known Activations