INDEX
    Explanations

    allow/enable

    New Auto-Interp
    Negative Logits
    Leaders
    -0.07
    league
    -0.07
     lunches
    -0.07
     terminal
    -0.07
    जन
    -0.06
     isAdmin
    -0.06
    .Errors
    -0.06
    fall
    -0.06
    Salary
    -0.06
    Fall
    -0.06
    POSITIVE LOGITS
     соверш
    0.08
     خدمت
    0.07
     potrze
    0.06
     квітня
    0.06
    prime
    0.06
    0.06
    ając
    0.06
     trao
    0.06
     کارت
    0.06
     Extr
    0.06
    Act Density 0.056%

    No Known Activations