INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     prog
    -0.09
     tad
    -0.08
     dont
    -0.07
     aparentemente
    -0.07
    -induced
    -0.07
     sz
    -0.07
    Prog
    -0.07
    turned
    -0.07
     allegedly
    -0.07
    -0.07
    POSITIVE LOGITS
     caution
    0.09
     disclaim
    0.09
    注意
    0.09
     heed
    0.09
     помнить
    0.08
     intangible
    0.08
     избег
    0.08
     beachten
    0.08
    避免
    0.08
     myös
    0.08
    Act Density 0.092%

    No Known Activations