INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     cardiovascular
    -0.07
     Ident
    -0.07
    contro
    -0.07
    (slice
    -0.07
    ιακ
    -0.07
     dass
    -0.07
     батьків
    -0.07
     pathological
    -0.07
    irror
    -0.07
    ��
    -0.07
    POSITIVE LOGITS
    _AM
    0.08
     Am
    0.08
    Am
    0.08
    AM
    0.07
    am
    0.07
    /am
    0.07
    .Normalize
    0.06
    TG
    0.06
    ke
    0.06
     Amelia
    0.06
    Act Density 0.069%

    No Known Activations