INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Die
    -0.07
     expectancy
    -0.07
    nerg
    -0.07
    Offer
    -0.06
     Cambridge
    -0.06
     mood
    -0.06
    ksen
    -0.06
     opponents
    -0.06
    чів
    -0.06
    -dependent
    -0.06
    POSITIVE LOGITS
    дет
    0.07
    0.06
     nghị
    0.06
     عب
    0.06
    0.06
     binh
    0.06
    0.06
    基金
    0.06
    еля
    0.06
     υπό
    0.06
    Act Density 0.003%

    No Known Activations