INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Gul
    -0.07
     silah
    -0.07
    -0.07
     Dam
    -0.07
    -0.07
    Fu
    -0.07
    án
    -0.07
    uctor
    -0.06
     ton
    -0.06
     LO
    -0.06
    POSITIVE LOGITS
     aprend
    0.09
     Boyd
    0.07
     повед
    0.07
     setOpen
    0.06
    prend
    0.06
    rends
    0.06
     مشارکت
    0.06
     apresent
    0.06
     Υπο
    0.06
     สพ
    0.06
    Act Density 0.011%

    No Known Activations