INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     weyn
    -0.08
    nios
    -0.08
     who's
    -0.08
    .dep
    -0.08
    enziale
    -0.08
     emph
    -0.08
    ulet
    -0.07
    Mean
    -0.07
    bz
    -0.07
    -0.07
    POSITIVE LOGITS
    分别
    0.11
     छन्
    0.10
     שונים
    0.09
     جميع
    0.09
     المختلفة
    0.09
     kaikki
    0.09
    0.09
     arasında
    0.09
     אלו
    0.09
    даны
    0.09
    Act Density 0.073%

    No Known Activations