INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ないです
    -0.09
     :-)
    -0.08
    מר
    -0.07
    קיר
    -0.07
     arrogance
    -0.07
    زو
    -0.07
     olduğunu
    -0.07
    るように
    -0.07
     sy
    -0.07
    颜色
    -0.07
    POSITIVE LOGITS
    ;
    0.11
    0.08
    empl
    0.07
    (tweet
    0.07
    >;
    0.07
    throp
    0.07
    זמ
    0.07
    umb
    0.07
    ;\
    0.07
    0.07
    Act Density 0.403%

    No Known Activations