INDEX

Explanations

task completion

New Auto-Interp

Top Features by Cosine Similarity

Configuration

Prompts (Dashboard)

10,000 prompts, 128 tokens each

Dataset (Dashboard)

lmsys/lmsys-chat-1m

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

akis

-0.12

YG

-0.10

èĬĤ

-0.10

 Ð¸ÑģÐ¿Ð¾Ð»Ð½

-0.09

akk

-0.09

èĸ

-0.09

RenderingContext

-0.09

 Wahl

-0.09

 positions

-0.09

stakes

-0.09

POSITIVE LOGITS

 task

0.21

 tasks

0.21

ä»»åĬ¡

0.17

task

0.15

tasks

0.15

 tarea

0.14

Tasks

0.13

 xong

0.13

 Tasks

0.13

 objectives

0.13

Activations Density 0.068%