INDEX
    Explanations

    IPython display code

    New Auto-Interp
    Negative Logits
     ספר
    -0.07
     Layer
    -0.07
     sufferers
    -0.07
     twe
    -0.07
     Lessons
    -0.07
    第三届
    -0.07
    -0.07
    视角
    -0.07
     ملف
    -0.06
     hears
    -0.06
    POSITIVE LOGITS
     bmi
    0.09
     beach
    0.08
     imposed
    0.07
     "%"
    0.07
     cors
    0.07
    0.07
     causal
    0.07
    יקה
    0.07
    0.07
     districts
    0.07
    Act Density 0.008%

    No Known Activations