INDEX
Explanations
words related to medical conditions or symptoms
New Auto-Interp
Negative Logits
докÑĥм
-0.35
ÑĤабли
-0.26
ÑģобÑĭ
-0.24
иÑģполÑĮзовани
-0.20
инÑĦоÑĢма
-0.19
поба
-0.19
меÑĤалли
-0.17
назна
-0.16
надлеж
-0.16
елек
-0.15
POSITIVE LOGITS
не
0.18
ÐIJÑĢÑħÑĸв
0.17
ÑģÑĥÑīеÑģÑĤв
0.16
Ñģм
0.16
неп
0.16
много
0.15
оÑĩенÑĮ
0.15
иÑģклÑİÑĩ
0.15
более
0.15
болез
0.15
Activations Density 0.077%