INDEX

Explanations

discrimination based on criteria

New Auto-Interp

Configuration

Prompts (Dashboard)

24,576 prompts, 128 tokens each

Dataset (Dashboard)

monology/pile-uncopyrighted

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 from

-1.00

期限

-0.97

 significance

-0.90

 Using

-0.88

שלום

-0.87

to

-0.87

 excessively

-0.84

ما

-0.82

מא

-0.81

 necessary

-0.81

POSITIVE LOGITS

 based

1.66

 discrimination

1.40

 Discrimination

1.36

discrimination

1.27

based

1.24

 against

1.23

 BASED

1.20

Based

1.16

experienced

1.09

 hacia

1.04

Activations Density 0.026%