INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     zb
    -0.08
    ives
    -0.07
    تط
    -0.07
    -0.07
    صفقة
    -0.07
    ząd
    -0.07
     suma
    -0.06
     Act
    -0.06
    ($(".
    -0.06
     sürek
    -0.06
    POSITIVE LOGITS
     fitness
    0.07
     rop
    0.07
    对面
    0.07
    恐龙
    0.07
     ***!↵
    0.07
    essages
    0.07
     Rays
    0.07
    0.07
    0.07
    0.07
    Act Density 0.009%

    No Known Activations