INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    perienced
    -0.08
    хи
    -0.07
     getaway
    -0.07
    خام
    -0.07
    _argv
    -0.07
    -0.07
     túi
    -0.07
    ار
    -0.07
    眼前的
    -0.07
    تمر
    -0.07
    POSITIVE LOGITS
    宗旨
    0.07
     ridicule
    0.07
     pollution
    0.07
    0.07
     picker
    0.07
     Caucas
    0.07
    gather
    0.07
     feminine
    0.07
     saddle
    0.07
     habits
    0.07
    Act Density 0.001%

    No Known Activations