INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .FullName
    -0.07
    ########
    -0.07
     bánh
    -0.07
    -0.07
     bubbles
    -0.06
     feminism
    -0.06
    -0.06
    uft
    -0.06
     денеж
    -0.06
     الزوج
    -0.06
    POSITIVE LOGITS
    看了看
    0.07
     nine
    0.07
    一根
    0.07
    rections
    0.07
     Proc
    0.07
     projected
    0.07
     четыре
    0.07
    相比
    0.07
    0.07
    一股
    0.07
    Act Density 0.019%

    No Known Activations