INDEX
    Explanations

    Positive adjectives

    New Auto-Interp
    Negative Logits
    :=
    -0.08
    -0.07
    utschen
    -0.07
     aided
    -0.07
     Paradise
    -0.07
    ')).
    -0.07
    ُون
    -0.07
     jew
    -0.06
     Fits
    -0.06
     infr
    -0.06
    POSITIVE LOGITS
     FRE
    0.06
     Hentai
    0.06
     weblog
    0.06
     нали
    0.06
     Symptoms
    0.06
     applicationContext
    0.06
    /dat
    0.06
    .APPLICATION
    0.06
    :white
    0.06
     ovar
    0.06
    Act Density 0.128%

    No Known Activations