INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    nis
    -0.07
     continu
    -0.07
     Người
    -0.06
     ringing
    -0.06
     llvm
    -0.06
     Canucks
    -0.06
     случ
    -0.06
     prm
    -0.06
     fostering
    -0.06
    近く
    -0.06
    POSITIVE LOGITS
    0.07
     vk
    0.07
    حركات
    0.07
    挖掘机
    0.07
     Balance
    0.07
     breadth
    0.06
    湛江
    0.06
    ܒ
    0.06
    或许是
    0.06
    ynomial
    0.06
    Act Density 0.008%

    No Known Activations