INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     WORK
    -0.06
    ูก
    -0.06
     compare
    -0.06
     než
    -0.06
     bonded
    -0.06
    append
    -0.06
     fear
    -0.06
     доктор
    -0.05
    我们的
    -0.05
    ominator
    -0.05
    POSITIVE LOGITS
     tableau
    0.07
    ان
    0.07
    acı
    0.07
    .Metro
    0.07
     sneak
    0.07
    rices
    0.06
    kich
    0.06
    _ABI
    0.06
    .Hide
    0.06
     Publish
    0.06
    Act Density 0.005%

    No Known Activations