INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     novembre
    -0.08
    orrow
    -0.07
    	in
    -0.07
     pagination
    -0.07
     Venez
    -0.07
    pathname
    -0.07
     vine
    -0.07
     nécessaire
    -0.07
     juin
    -0.07
    przedsiębiorst
    -0.07
    POSITIVE LOGITS
    +s
    0.07
    ـ
    0.07
    𝗱
    0.07
     stil
    0.07
    fra
    0.07
    抬起
    0.07
    0.06
     (
    ↵
    0.06
    0.06
    っきり
    0.06
    Act Density 0.021%

    No Known Activations