INDEX
    Explanations

    Nazis and Fascism

    New Auto-Interp
    Negative Logits
    净值
    -0.07
    美好的
    -0.07
     Clerk
    -0.07
    beits
    -0.07
    主题教育
    -0.07
    -0.07
    JP
    -0.07
    .Health
    -0.07
    בצע
    -0.07
    ング
    -0.07
    POSITIVE LOGITS
     dest
    0.08
    ological
    0.07
    rv
    0.07
     point
    0.07
    _bridge
    0.07
     לל
    0.07
    $res
    0.07
     grup
    0.07
    低估
    0.06
    +#
    0.06
    Act Density 0.014%

    No Known Activations