INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     look
    -0.07
     Confidence
    -0.07
    variable
    -0.07
     merak
    -0.06
    -0.06
     vera
    -0.06
    .Properties
    -0.06
    patible
    -0.06
     direct
    -0.06
     affili
    -0.06
    POSITIVE LOGITS
     بازیگر
    0.07
     dijo
    0.07
    เกษตร
    0.07
    出口
    0.06
     Hlav
    0.06
    [..
    0.06
     skirm
    0.06
    후기
    0.06
     Wi
    0.06
     french
    0.06
    Act Density 0.008%

    No Known Activations