INDEX
    Explanations

    not morally wrong

    New Auto-Interp
    Negative Logits
    -0.08
    reu
    -0.08
     pis
    -0.08
    ançais
    -0.07
    anut
    -0.07
     Ut
    -0.07
    hali
    -0.07
    tin
    -0.07
    nimi
    -0.07
     pata
    -0.07
    POSITIVE LOGITS
     solange
    0.13
     większo
    0.11
     zolang
    0.11
     grundsätzlich
    0.11
    不会
    0.10
     большин
    0.10
     большинстве
    0.10
     معظم
    0.10
     maje
    0.10
     अधिकांश
    0.10
    Act Density 0.078%

    No Known Activations