INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     answering
    -0.08
    erg
    -0.08
    -0.07
     HIV
    -0.07
     gira
    -0.07
    rist
    -0.07
     leider
    -0.07
    ก่อน
    -0.07
    říklad
    -0.07
    POSITIVE LOGITS
    bucket
    0.09
    -American
    0.09
     yol
    0.08
    159
    0.08
     Moon
    0.08
     pork
    0.08
     mortar
    0.08
     enclave
    0.08
    emo
    0.08
    income
    0.08
    Act Density 0.010%

    No Known Activations