INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Prelude
    -0.07
    ораз
    -0.06
     últ
    -0.06
    -0.06
     مشاهده
    -0.06
    OUR
    -0.06
     retrieve
    -0.06
    -0.06
     homework
    -0.06
     administer
    -0.05
    POSITIVE LOGITS
    imb
    0.21
     imb
    0.13
    _MB
    0.07
    Spr
    0.07
     Kimber
    0.07
     film
    0.07
    BS
    0.07
    B
    0.07
     entre
    0.07
    Band
    0.07
    Act Density 0.008%

    No Known Activations