MapReduce: DistributedCache的使用例子
需求场景: 过滤无意义的单词后再进行文本词频统计。处理流程是:1)预定义要过滤的无意义单词保存成文件,保存到HDFS中;2)程序中将该文件定位为作业的缓存文件,使用DistributedCache类;3)Map中读入缓存文件,对文件中的单词不做词频统计。该场景主要解决文件在Hadoop各task之间共享的问题,用conf传递参数不能传输大文件,于是通过DistributedCache派...