INDEX

Explanations

weaknesses and vulnerabilities

New Auto-Interp

Configuration

Prompts (Dashboard)

238,145 prompts, 512 tokens each

Dataset (Dashboard)

lmsys + oasst1

Embeds

IFrame

Link

Not in Any Lists

No Comments

Negative Logits

 Multivariate

0.41

{-

0.41

渐

0.37

Feu

0.37

 withhold

0.36

 xác

0.36

 Noord

0.36

 beneficios

0.35

枳

0.35

queryParams

0.35

POSITIVE LOGITS

 weaknesses

2.50

 weakness

2.42

 weak

2.13

弱

2.03

 Weak

2.00

Weak

1.98

weak

1.96

 vulnerabilities

1.95

 weakest

1.93

 слабо

1.77

Activations Density 0.088%