INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     twenties
    -0.08
     موقف
    -0.07
     fetal
    -0.07
    五官
    -0.07
    生態
    -0.07
    mobile
    -0.07
    子宫
    -0.07
    ספק
    -0.07
    مول
    -0.07
    مطار
    -0.06
    POSITIVE LOGITS
     предпоч
    0.08
    )==
    0.07
    0.07
    $errors
    0.07
     Schw
    0.07
    还可以
    0.07
     ##↵
    0.06
    stantial
    0.06
     wished
    0.06
    бе
    0.06
    Act Density 0.008%

    No Known Activations