INDEX
Explanations
sensitive topics and requests
New Auto-Interp
Negative Logits
s
0.74
in
0.64
在
0.63
tn
0.60
ání
0.59
jší
0.59
appetizing
0.59
tan
0.56
तील
0.56
是
0.56
POSITIVE LOGITS
il
0.85
ר
0.83
us
0.75
й
0.75
י
0.72
ু
0.72
Sensitive
0.69
sensitive
0.68
ג
0.68
ol
0.67
Activations Density 0.012%