INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    בנו
    -0.07
    -0.07
     vir
    -0.07
    -0.07
     Mul
    -0.06
     Halifax
    -0.06
    -0.06
     officer
    -0.06
    的地位
    -0.06
     القر
    -0.06
    POSITIVE LOGITS
     adoption
    0.07
     shocks
    0.07
    0.07
    bons
    0.06
    ECH
    0.06
    0.06
     scholarship
    0.06
    0.06
     {[
    0.06
    temperature
    0.06
    Act Density 0.116%

    No Known Activations