INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     =
    -0.11
    -0.11
    -0.09
    -0.09
    :
    -0.08
    cc
    -0.07
    -0.07
     Icon
    -0.07
    гор
    -0.07
    thumb
    -0.07
    POSITIVE LOGITS
    elts
    0.07
    .AddParameter
    0.07
     Московск
    0.07
    口头
    0.07
    מרחב
    0.06
    长大
    0.06
    (rotation
    0.06
    0.06
    有这样的
    0.06
     promot
    0.06
    Act Density 1.109%

    No Known Activations