INDEX
Negative Logits
rows
0.44
$(
0.37
tweaks
0.37
widget
0.37
$(
0.36
row
0.36
bottom
0.36
scheint
0.36
racking
0.36
back
0.36
POSITIVE LOGITS
OpenAI
0.53
善良
0.48
ปลอดภัย
0.48
chatbot
0.48
נישט
0.46
niemals
0.46
deont
0.46
abhor
0.45
نمی
0.45
できません
0.45
Activations Density 2.107%