INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     diligence
    -0.09
     deo
    -0.08
     feature
    -0.07
    loin
    -0.07
     leisurely
    -0.07
     vroeg
    -0.07
    -degree
    -0.07
     era
    -0.07
     Knox
    -0.07
     debris
    -0.07
    POSITIVE LOGITS
     aph
    0.08
    ศาสตร์
    0.08
    Им
    0.08
     clínicas
    0.08
     sexuels
    0.08
    万能
    0.08
     терап
    0.08
     hypnosis
    0.08
    Ш
    0.08
     NLP
    0.08
    Act Density 0.002%

    No Known Activations