INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    坚强
    -0.07
    damn
    -0.07
    -0.07
     Groß
    -0.07
    全國
    -0.07
     Notícias
    -0.06
    TargetException
    -0.06
     Durch
    -0.06
     niektórych
    -0.06
    (Screen
    -0.06
    POSITIVE LOGITS
    0.08
    	ent
    0.07
    percent
    0.07
    0.07
    ('*',
    0.07
    ай
    0.07
     Shopping
    0.07
     ply
    0.06
    /apt
    0.06
    地址
    0.06
    Act Density 0.017%

    No Known Activations