INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     aufge
    -0.08
     seminal
    -0.07
    -0.07
     arrange
    -0.07
    原则
    -0.07
     prevailed
    -0.07
    ̃
    -0.07
     daar
    -0.07
     চেয়ার
    -0.07
    blatt
    -0.07
    POSITIVE LOGITS
     Compassion
    0.08
    0.08
     vole
    0.08
    yb
    0.08
     ham
    0.08
     fence
    0.07
     Desire
    0.07
     fidél
    0.07
     évent
    0.07
     tuss
    0.07
    Act Density 0.002%

    No Known Activations