INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    adm
    -0.09
     hi
    -0.08
    -0.08
     कर
    -0.08
     मजब
    -0.08
     kümmern
    -0.08
     adm
    -0.08
    -Europe
    -0.07
    -than
    -0.07
    _INCLUDE
    -0.07
    POSITIVE LOGITS
    agre
    0.08
    ayo
    0.07
    eso
    0.07
    emos
    0.07
    enz
    0.07
    ager
    0.07
     দেখি
    0.07
     всего
    0.07
     tacos
    0.07
    attrib
    0.07
    Act Density 0.022%

    No Known Activations