INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     moral
    -0.08
     oath
    -0.07
    Executive
    -0.07
    בות
    -0.07
    是一家
    -0.07
     STAR
    -0.07
    łoż
    -0.07
    此事
    -0.06
    뉴스
    -0.06
    icult
    -0.06
    POSITIVE LOGITS
     Ya
    0.06
    .Te
    0.06
    0.06
     Arcade
    0.06
     غزة
    0.06
    0.06
    游艇
    0.06
    0.06
    血糖
    0.06
    0.06
    Act Density 0.002%

    No Known Activations