INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ascertaining
    0.45
     którzy
    0.40
     délais
    0.38
     desarrollando
    0.38
    лся
    0.37
     κι
    0.37
    0.37
     siendo
    0.37
     sommeil
    0.36
     wład
    0.35
    POSITIVE LOGITS
    {
    0.52
    na
    0.49
    og
    0.43
    me
    0.41
     for
    0.40
    erweise
    0.40
    ch
    0.39
    im
    0.38
    br
    0.38
    men
    0.38
    Act Density 0.915%

    No Known Activations