INDEX
    Explanations

    Prompt/Article Beginnings

    New Auto-Interp
    Negative Logits
    ’avant
    -0.08
     irm
    -0.08
     весьма
    -0.08
     discourse
    -0.08
    ’avenir
    -0.08
    进去
    -0.08
    随后
    -0.08
     consist
    -0.08
     આપવામાં
    -0.08
    ouvre
    -0.07
    POSITIVE LOGITS
     хотите
    0.15
     ترغب
    0.13
     vuoi
    0.13
     quieres
    0.13
     želite
    0.12
     souhaitez
    0.12
     möchtest
    0.12
     szeret
    0.11
     chcete
    0.11
     تريد
    0.11
    Act Density 0.216%

    No Known Activations