INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     مض
    -0.07
     έναν
    -0.07
     kvinder
    -0.06
    olem
    -0.06
     talk
    -0.06
     کیف
    -0.06
     pill
    -0.06
    >Name
    -0.06
     پر
    -0.06
     prematurely
    -0.06
    POSITIVE LOGITS
    IPA
    0.07
    itational
    0.07
    ductive
    0.07
     atlas
    0.07
     NT
    0.06
    SPATH
    0.06
    getClass
    0.06
    ілля
    0.06
    ADX
    0.06
     rt
    0.06
    Act Density 0.002%

    No Known Activations