INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     مو
    -0.09
    Cus
    -0.08
     Mub
    -0.08
     empathy
    -0.07
    WG
    -0.07
     propostas
    -0.07
     corticost
    -0.07
    全球
    -0.07
    τικότητα
    -0.07
    Smart
    -0.07
    POSITIVE LOGITS
     artificially
    0.09
     artificial
    0.08
     guaranteed
    0.08
     Artificial
    0.08
     Guaranteed
    0.08
     опы
    0.07
     skyscr
    0.07
     metallic
    0.07
     climates
    0.07
    _indices
    0.07
    Act Density 0.003%

    No Known Activations