MapReduce详解1.为什么需要MapReduce 2.认识MapReduce 3.MapReduce的工作机制 4.MapReduce作业失败处理 5.作业的调度 6.Mapreduce的shuffle和排序
1.为什么需要MapReduce我们为什么不能使用数据库来对大量磁盘上的大规模数据进行批量分析呢?我们为什么需要MapReduce?这些问题的答案来自磁盘的另一个发展趋势:寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因,而传输速度取决于磁盘的带宽。如果数据的访问模式汇总包含大量的磁盘寻址,那么读取大量数据集所花...