INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     frontline
    -0.08
     eficaz
    -0.07
    ayer
    -0.07
     complexities
    -0.07
     temel
    -0.07
     preced
    -0.07
     जु
    -0.07
     इंटर
    -0.07
     उल्लेख
    -0.07
     Could
    -0.07
    POSITIVE LOGITS
     дальше
    0.11
     hacia
    0.10
     pokrač
    0.10
     dalej
    0.10
    继续
    0.09
    0.09
    直到
    0.09
    tow
    0.09
    unin
    0.09
     lleg
    0.09
    Act Density 0.014%

    No Known Activations