INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ۓ
    -0.08
     legitim
    -0.07
    templ
    -0.07
    -0.07
     fascism
    -0.07
    imid
    -0.07
    -0.07
    -0.07
     dictate
    -0.07
    שמות
    -0.06
    POSITIVE LOGITS
    情节
    0.08
    :hidden
    0.07
    0.07
     adress
    0.07
    炸弹
    0.07
     dividend
    0.07
    0.07
    产权
    0.07
    大楼
    0.07
     System
    0.07
    Act Density 0.000%

    No Known Activations