INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     contrario
    -0.07
    ripp
    -0.07
     meslek
    -0.06
    Bei
    -0.06
     ağır
    -0.06
    신청
    -0.06
    _endian
    -0.06
    افة
    -0.06
    _wo
    -0.06
    stands
    -0.06
    POSITIVE LOGITS
     Down
    0.08
    	dir
    0.07
    LOY
    0.07
    画像
    0.07
     Err
    0.07
     %
    0.07
    -ng
    0.07
     ending
    0.06
    _INTER
    0.06
     PLAY
    0.06
    Act Density 0.000%

    No Known Activations