2023年12月归档_勤恳电源的博客_VBS编程,PHP编程,Windows Wista,Windows 10,Windows 9,windows,Photoshop教程,hadoop领域博主

mapreduce处理数据倾斜的一些方法

在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切分上的

hadoop 2023-12-07 201 点赞 3 评论 304 浏览

勤恳电源

mapreduce处理数据倾斜的一些方法

他的专栏

他的归档

热门文章