INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Virgin
    -0.07
    天赋
    -0.07
    -0.07
     copyright
    -0.07
    -0.07
    .bias
    -0.07
    向社会
    -0.07
    -0.07
    Align
    -0.06
    apt
    -0.06
    POSITIVE LOGITS
    0.07
    fäh
    0.07
    iren
    0.07
    ////////////////////////////////////////////////////////
    0.07
    -Am
    0.07
    עיני
    0.07
    jącym
    0.07
    ива
    0.07
     наблю
    0.07
    _MI
    0.07
    Act Density 0.001%

    No Known Activations