INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Medina
    -0.07
     Lim
    -0.07
     questionnaire
    -0.07
     Committee
    -0.07
    )value
    -0.07
     oath
    -0.07
    ={!
    -0.06
    redd
    -0.06
    ="<?
    -0.06
     Abdul
    -0.06
    POSITIVE LOGITS
     Outlook
    0.07
    点多
    0.07
    0.07
     waited
    0.07
     annoying
    0.07
    stärke
    0.07
    陛下
    0.07
    ברו
    0.07
    作った
    0.07
    .NEW
    0.06
    Act Density 0.008%

    No Known Activations