INDEX
Explanations
prohibiting generating harmful content
New Auto-Interp
Negative Logits
Preheat
0.37
Molly
0.36
other
0.36
$\
0.34
Yes
0.34
paused
0.34
el
0.33
others
0.33
Hay
0.33
الآخر
0.33
POSITIVE LOGITS
цього
0.63
этого
0.56
această
0.56
இதுபோன்ற
0.56
этом
0.54
този
0.53
こういう
0.53
sowas
0.53
acest
0.52
هذا
0.52
Activations Density 0.139%