INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     mindful
    -0.07
    ену
    -0.07
     Grace
    -0.07
    ağa
    -0.07
    ених
    -0.07
     cname
    -0.06
     Ironically
    -0.06
     sagt
    -0.06
     ряд
    -0.06
     agile
    -0.06
    POSITIVE LOGITS
     LINUX
    0.07
     départ
    0.06
    0.06
    _position
    0.06
    programs
    0.06
     inexp
    0.06
     normalized
    0.05
     wir
    0.05
     Arap
    0.05
    ùng
    0.05
    Act Density 0.002%

    No Known Activations