INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    (simp
    -0.07
    嚴重
    -0.07
    柬埔寨
    -0.07
    .Expect
    -0.07
     comply
    -0.07
    动漫
    -0.06
     открыт
    -0.06
     flirting
    -0.06
     relacion
    -0.06
    局部
    -0.06
    POSITIVE LOGITS
    עות
    0.07
    function
    0.07
     modifications
    0.07
    0.07
    isFunction
    0.06
     laugh
    0.06
    _error
    0.06
    _Mouse
    0.06
     Won
    0.06
    uga
    0.06
    Act Density 0.039%

    No Known Activations