迷人大树

文章
6
资源
0
加入时间
2年10月17天

Hadoop实战之课后题--分析web服务器的日志文件

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoop MR程序的写法。 优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个: 使用TreeMap来得到