INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _du
    -0.08
    .sg
    -0.08
     dont
    -0.08
     לע
    -0.08
     vivo
    -0.07
     lol
    -0.07
    wax
    -0.07
     Ras
    -0.07
     gef
    -0.07
    boy
    -0.07
    POSITIVE LOGITS
     Karen
    0.09
    ADF
    0.08
     Mr
    0.08
    tal
    0.08
    Karen
    0.07
     लगे
    0.07
     definit
    0.07
     Ward
    0.07
    pod
    0.07
    td
    0.07
    Act Density 0.026%

    No Known Activations