INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     virtue
    -0.08
     SMP
    -0.08
     smis
    -0.07
     Mauro
    -0.07
    acus
    -0.07
     aku
    -0.07
     wusste
    -0.07
    났다
    -0.07
    -0.07
     отраж
    -0.07
    POSITIVE LOGITS
     loosen
    0.10
    -knit
    0.10
    hearted
    0.09
     loose
    0.09
    -hearted
    0.09
     unle
    0.09
    0.09
     loos
    0.08
    0.08
    -minded
    0.08
    Act Density 0.007%

    No Known Activations