INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .preprocessing
    -0.07
     current
    -0.07
    lications
    -0.07
     هي
    -0.06
    Endpoints
    -0.06
    abe
    -0.06
    mph
    -0.06
    avě
    -0.06
    -0.06
    なら
    -0.06
    POSITIVE LOGITS
    ัมพ
    0.07
    0.06
    0.06
     vigor
    0.06
    0.06
    าะห
    0.06
    ницип
    0.06
     /****************************************************************
    0.05
     contributions
    0.05
     Fal
    0.05
    Act Density 0.049%

    No Known Activations