INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    etur
    -0.09
    teri
    -0.08
    -0.07
    Keeper
    -0.07
     Minder
    -0.07
    %\
    -0.07
     Username
    -0.07
     Sonn
    -0.07
    留言
    -0.07
    Ung
    -0.07
    POSITIVE LOGITS
    ½
    0.10
    ¾
    0.09
     tablespoons
    0.09
    აქც
    0.09
    ¼
    0.09
     ಗಂಟ
    0.08
     ansin
    0.08
     рань
    0.08
     ïa
    0.08
    0.08
    Act Density 0.010%

    No Known Activations