INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    (nd
    -0.06
     ABD
    -0.06
     kar
    -0.06
     frightened
    -0.06
    Ord
    -0.06
    Dia
    -0.06
     ทำ
    -0.06
    _SAMPLE
    -0.06
    -0.05
     физ
    -0.05
    POSITIVE LOGITS
     lowest
    0.07
    性的
    0.07
    ประส
    0.07
    probe
    0.07
    Textbox
    0.07
    星期
    0.07
    relay
    0.06
    міністра
    0.06
    0.06
    ً
    0.06
    Act Density 0.000%

    No Known Activations