INDEX
Explanations
explicitly prohibit safety guidelines
New Auto-Interp
Negative Logits
در
0.32
ول
0.29
precedents
0.28
过来
0.28
ใน
0.27
Sight
0.27
از
0.27
From
0.27
在了
0.27
مص
0.26
POSITIVE LOGITS
said
0.45
mengatakan
0.43
afirmó
0.43
dijo
0.41
sagte
0.41
said
0.39
lamented
0.38
сказал
0.38
contended
0.37
sostuvo
0.37
Activations Density 0.016%