INDEX
    Explanations

    negative movie reviews

    New Auto-Interp
    Negative Logits
    dac
    -0.07
    想要
    -0.06
     همسر
    -0.06
    टक
    -0.06
    άντα
    -0.06
    istencia
    -0.06
    ovací
    -0.06
     místo
    -0.06
    رت
    -0.06
    ocus
    -0.06
    POSITIVE LOGITS
     getName
    0.06
     alleles
    0.06
     لم
    0.06
    (sym
    0.06
    comb
    0.06
     Fang
    0.06
     unab
    0.06
    (Vertex
    0.06
     Veterinary
    0.06
     справж
    0.06
    Act Density 0.042%

    No Known Activations