INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     rows
    0.44
    $(
    0.37
     tweaks
    0.37
     widget
    0.37
     $(
    0.36
     row
    0.36
    bottom
    0.36
     scheint
    0.36
     racking
    0.36
    back
    0.36
    POSITIVE LOGITS
     OpenAI
    0.53
    善良
    0.48
    ปลอดภัย
    0.48
     chatbot
    0.48
     נישט
    0.46
     niemals
    0.46
     deont
    0.46
     abhor
    0.45
     نمی
    0.45
    できません
    0.45
    Act Density 2.107%

    No Known Activations