INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -turned
    -0.07
    	fail
    -0.07
    crime
    -0.06
    isdiction
    -0.06
    representation
    -0.06
     Bearing
    -0.06
    _Rem
    -0.06
     Alf
    -0.06
    Bre
    -0.06
    ieren
    -0.06
    POSITIVE LOGITS
    ักเร
    0.06
     endPoint
    0.06
    大利
    0.06
     कम
    0.06
     北京
    0.06
     Куб
    0.06
     курс
    0.06
     nút
    0.06
    /table
    0.06
     addslashes
    0.06
    Act Density 0.021%

    No Known Activations