INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     want
    0.32
     know
    0.29
    知道
    0.28
     знают
    0.27
     cannot
    0.25
     have
    0.25
     хоче
    0.23
     muốn
    0.23
     think
    0.23
    0.23
    POSITIVE LOGITS
    ;&
    0.19
     précéd
    0.19
    гото
    0.18
     بخش
    0.18
    راك
    0.18
    0.18
    rekking
    0.18
    fora
    0.17
    Personensuche
    0.17
    <unused146>
    0.17
    Act Density 0.029%

    No Known Activations