INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     tillbaka
    -0.09
     Наш
    -0.09
     हाम्रो
    -0.09
     ನೀಡಿ
    -0.09
     گهر
    -0.09
    Наш
    -0.09
     maendeleo
    -0.09
    Este
    -0.08
     venido
    -0.08
     beho
    -0.08
    POSITIVE LOGITS
     these
    0.10
    ,所以
    0.09
    root
    0.09
    enom
    0.08
     certain
    0.08
     이러한
    0.08
    これ
    0.08
    这些
    0.08
     этих
    0.08
    these
    0.08
    Act Density 0.076%

    No Known Activations