INDEX
    Explanations

    objectification and degradation

    New Auto-Interp
    Negative Logits
    Shared
    0.46
    நம்
    0.42
    domain
    0.41
     sangat
    0.41
     domain
    0.40
     vår
    0.40
    我們的
    0.38
     بتاعتنا
    0.38
     naszym
    0.38
    <0xCB>
    0.38
    POSITIVE LOGITS
    0.48
     unlucky
    0.47
     என்பவர்
    0.47
     обслу
    0.45
     తగ్
    0.42
     nameless
    0.42
    被人
    0.42
    ону
    0.41
    出现在
    0.41
     unwitting
    0.41
    Act Density 0.113%

    No Known Activations