INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     доб
    -0.07
     خاطر
    -0.07
     Erl
    -0.07
     κό
    -0.06
     `.
    -0.06
     Stan
    -0.06
    нув
    -0.06
    用的
    -0.06
    -0.06
    الی
    -0.06
    POSITIVE LOGITS
     disparities
    0.07
     merciless
    0.06
     είναι
    0.06
     styling
    0.06
    UTF
    0.06
     Investors
    0.06
     laisse
    0.06
     Type
    0.06
     U
    0.06
     vin
    0.05
    Act Density 0.010%

    No Known Activations