INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     dictate
    -0.07
    lush
    -0.07
     buck
    -0.06
     strm
    -0.06
     sebagai
    -0.06
    LineEdit
    -0.06
     FLT
    -0.06
     двиг
    -0.06
    (class
    -0.06
     prim
    -0.06
    POSITIVE LOGITS
     Sur
    0.34
    Sur
    0.29
     SUR
    0.18
    sur
    0.16
     sur
    0.15
    SUR
    0.14
    -sur
    0.14
    _sur
    0.13
    _SUR
    0.11
     Surv
    0.10
    Act Density 0.005%

    No Known Activations