INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     pac
    -0.08
     habil
    -0.08
    -0.08
    iraz
    -0.08
     pays
    -0.07
     wagering
    -0.07
     policies
    -0.07
     complac
    -0.07
     Paying
    -0.07
    fert
    -0.07
    POSITIVE LOGITS
    _bottom
    0.09
    _top
    0.09
     twelve
    0.08
    IAL
    0.08
     Weihnachten
    0.08
    unset
    0.08
    _edges
    0.08
    Topo
    0.08
     Weihnachts
    0.07
    ock
    0.07
    Act Density 0.015%

    No Known Activations