INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     luận
    -0.07
    타이
    -0.07
    -0.06
     önlem
    -0.06
     sensory
    -0.06
    üyoruz
    -0.06
    、そう
    -0.06
     згідно
    -0.06
    -0.06
     دن
    -0.06
    POSITIVE LOGITS
    *w
    0.07
    *g
    0.07
     hires
    0.07
     smaller
    0.07
    La
    0.07
    κρι
    0.06
     Heights
    0.06
    _td
    0.06
     cri
    0.06
    ў
    0.06
    Act Density 0.175%

    No Known Activations