INDEX

Explanations

major security violation

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 बगैर

0.74

لسط

0.74

ীননাথ

0.74

 విషయంలో

0.72

 आलिया

0.71

 bhfuil

0.71

 siger

0.71

隣

0.71

 خاصيه

0.70

Exponent

0.69

POSITIVE LOGITS

 major

0.78

Major

0.68

dis

0.66

 security

0.66

یکی

0.66

 Major

0.66

red

0.63

major

0.63

 clear

0.63

 מז

0.61

Activations Density 0.058%