INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ænd
    -0.07
     project
    -0.07
     particle
    -0.07
     x
    -0.07
     adjoining
    -0.06
     particles
    -0.06
     beverage
    -0.06
     estilo
    -0.06
     kids
    -0.06
    лен
    -0.06
    POSITIVE LOGITS
     Dietary
    0.07
    0.07
    ΕΠ
    0.07
     вироб
    0.07
     eser
    0.07
    姓名
    0.07
    arena
    0.07
    [char
    0.06
    (send
    0.06
    ιχ
    0.06
    Act Density 0.021%

    No Known Activations