INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     lx
    -0.07
     thích
    -0.07
    window
    -0.07
     buna
    -0.07
     групп
    -0.07
     اتاق
    -0.06
    .notice
    -0.06
    //****************************************************************************
    -0.06
     ребен
    -0.06
    -0.06
    POSITIVE LOGITS
    caption
    0.06
    영어
    0.06
     insane
    0.06
    0.06
     #'
    0.06
     deliberate
    0.05
    ाखण
    0.05
     clo
    0.05
    ively
    0.05
    giene
    0.05
    Act Density 0.040%

    No Known Activations