INDEX
Explanations
content moderation policies
New Auto-Interp
Negative Logits
✮
0.82
голова
0.68
accommodate
0.67
scroll
0.66
infiltrate
0.66
clay
0.66
लन
0.65
ensure
0.65
머
0.63
simmer
0.63
POSITIVE LOGITS
صاف
0.82
iciado
0.78
প্রার্থীদের
0.77
idences
0.76
ائط
0.75
குறிப்பிடத்தக்க
0.75
silenz
0.74
Maced
0.70
itions
0.70
喧
0.70
Activations Density 0.003%