INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    precation
    -0.08
     asymmetric
    -0.07
    iral
    -0.07
    ¥
    -0.07
    лению
    -0.07
     eux
    -0.06
     ним
    -0.06
    /an
    -0.06
     como
    -0.06
    .logical
    -0.06
    POSITIVE LOGITS
     chois
    0.06
    0.06
    VERTISEMENT
    0.06
    0.06
     help
    0.06
     chance
    0.06
    ΟΛΟΓ
    0.06
     guilt
    0.06
     chances
    0.06
     дра
    0.06
    Act Density 0.048%

    No Known Activations