INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     الحب
    -0.08
     upsetting
    -0.08
     lf
    -0.07
    Vi
    -0.07
    -fed
    -0.07
    .guid
    -0.07
    فين
    -0.07
     meilleur
    -0.07
    .face
    -0.07
     clu
    -0.07
    POSITIVE LOGITS
     handful
    0.08
     Nokia
    0.07
     Noord
    0.07
     Joshua
    0.07
    vak
    0.07
     Desk
    0.07
    anywa
    0.07
     Oktober
    0.07
    aj
    0.07
     Jan
    0.07
    Act Density 0.000%

    No Known Activations