INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     odio
    -0.07
    故事
    -0.06
    -0.06
    нуться
    -0.06
     tính
    -0.06
     potion
    -0.06
    orthand
    -0.06
    NdEx
    -0.06
    运行
    -0.06
     огранич
    -0.06
    POSITIVE LOGITS
     shear
    0.16
     sheer
    0.08
     Ms
    0.07
     seo
    0.07
     dilation
    0.07
    assium
    0.07
    ar
    0.07
     selection
    0.07
    ор
    0.06
     кош
    0.06
    Act Density 0.002%

    No Known Activations