INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    假的
    -0.08
    bind
    -0.08
     wohnen
    -0.08
    -0.08
    -0.08
    博彩
    -0.08
     Primera
    -0.08
     Bind
    -0.07
    -0.07
    POSITIVE LOGITS
    Nums
    0.08
     deft
    0.07
     недостат
    0.07
    Fax
    0.07
     JPEG
    0.07
     NSNumber
    0.07
     хэмж
    0.07
     händer
    0.07
     anty
    0.07
    Integer
    0.07
    Act Density 0.002%

    No Known Activations