INDEX
    Explanations

    while, followed by contrast

    New Auto-Interp
    Negative Logits
    的同时
    0.43
     Whilst
    0.36
     gleichzeitig
    0.35
     samtidigt
    0.34
     whilst
    0.33
     lament
    0.32
    Mientras
    0.32
     while
    0.32
     आणि
    0.32
     silage
    0.32
    POSITIVE LOGITS
    0.39
     يجب
    0.34
    0.34
     существуют
    0.34
    會有
    0.33
    只有
    0.32
     обяза
    0.32
    有两个
    0.32
    有り
    0.32
    有意
    0.32
    Act Density 0.034%

    No Known Activations