INDEX
Explanations
your request violates safety
New Auto-Interp
Negative Logits
他们
0.48
他們
0.46
stupid
0.41
তারা
0.41
stupidity
0.40
arnya
0.39
身高
0.39
พวกเขา
0.39
ాలి
0.38
آنها
0.38
POSITIVE LOGITS
yourselves
0.75
yourself
0.71
Yourself
0.69
あなたは
0.66
ீர்கள்
0.65
तुम्ही
0.64
jste
0.58
మీరు
0.58
께서
0.58
நீங்கள்
0.57
Activations Density 0.547%