INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     تستخدم
    -0.09
     universe
    -0.08
     cer
    -0.08
     saison
    -0.08
     caro
    -0.08
     caus
    -0.08
     يستخدم
    -0.08
     faisait
    -0.08
     lifelong
    -0.08
    schap
    -0.08
    POSITIVE LOGITS
    еда
    0.08
     BUS
    0.08
    Interrupted
    0.08
    Thumb
    0.08
    BUS
    0.07
     alred
    0.07
    रिक
    0.07
    ोत्स
    0.07
    บุรี
    0.07
     Taj
    0.07
    Act Density 0.003%

    No Known Activations