INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     chó
    -0.07
     yuk
    -0.07
    拳头
    -0.07
    -0.07
    -0.07
     VBox
    -0.07
    未婚
    -0.07
    谢谢
    -0.06
    -0.06
     השא
    -0.06
    POSITIVE LOGITS
    _VERSION
    0.07
    /general
    0.07
     Technologies
    0.07
    iscrim
    0.07
     concrete
    0.07
    руб
    0.07
    工艺
    0.06
     selectively
    0.06
    rer
    0.06
    _CAL
    0.06
    Act Density 0.004%

    No Known Activations