INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    aneous
    -0.08
    ้าง
    -0.07
    -wing
    -0.07
     כולו
    -0.07
    uble
    -0.07
    مكافحة
    -0.07
    -0.07
    藏着
    -0.07
     الأربعاء
    -0.07
    aviest
    -0.06
    POSITIVE LOGITS
     sof
    0.07
     Nad
    0.07
     dav
    0.07
     Eph
    0.07
    當然
    0.07
     Wak
    0.06
    GUID
    0.06
    rdf
    0.06
    .def
    0.06
     vene
    0.06
    Act Density 0.017%

    No Known Activations