INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    hattan
    -0.06
    .Head
    -0.06
    har
    -0.06
     ساخت
    -0.06
     سب
    -0.06
    masından
    -0.06
    ói
    -0.06
     cardiac
    -0.06
     royal
    -0.05
     amo
    -0.05
    POSITIVE LOGITS
     prevention
    0.09
     preventative
    0.08
    もっと
    0.07
    wj
    0.07
     Peer
    0.07
    	ptr
    0.07
    vertise
    0.07
    投注
    0.07
     reduction
    0.07
    ССР
    0.07
    Act Density 0.013%

    No Known Activations