INDEX
Negative Logits
ないです
-0.09
:-)
-0.08
מר
-0.07
קיר
-0.07
arrogance
-0.07
زو
-0.07
olduğunu
-0.07
るように
-0.07
sy
-0.07
颜色
-0.07
POSITIVE LOGITS
;
0.11
ั
0.08
empl
0.07
(tweet
0.07
>;
0.07
throp
0.07
זמ
0.07
umb
0.07
;\
0.07
;
0.07
Activations Density 0.403%