INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     מנת
    -0.08
    inator
    -0.08
    licken
    -0.07
    ellidos
    -0.07
     prest
    -0.07
    crear
    -0.07
    ussen
    -0.07
    yclic
    -0.07
     lesb
    -0.07
    这几年
    -0.06
    POSITIVE LOGITS
     admire
    0.07
     mattresses
    0.07
     improvements
    0.06
     Cottage
    0.06
    صم
    0.06
    工夫
    0.06
     smoother
    0.06
     mounts
    0.06
     omega
    0.06
    .boost
    0.06
    Act Density 0.032%

    No Known Activations