INDEX
    Explanations

    words related to medical conditions or symptoms

    New Auto-Interp
    Negative Logits
     докÑĥм
    -0.35
     ÑĤабли
    -0.26
     ÑģобÑĭ
    -0.24
     иÑģполÑĮзовани
    -0.20
     инÑĦоÑĢма
    -0.19
     поба
    -0.19
     меÑĤалли
    -0.17
     назна
    -0.16
    надлеж
    -0.16
     елек
    -0.15
    POSITIVE LOGITS
     не
    0.18
    ÐIJÑĢÑħÑĸв
    0.17
     ÑģÑĥÑīеÑģÑĤв
    0.16
     Ñģм
    0.16
     неп
    0.16
     много
    0.15
     оÑĩенÑĮ
    0.15
     иÑģклÑİÑĩ
    0.15
     более
    0.15
     болез
    0.15
    Act Density 0.077%

    No Known Activations