我是靠谱客的博主 敏感小蜜蜂,最近开发中收集的这篇文章主要介绍用Hive实现MapReduce的单词统计,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一个简单的单词统计在用MapReduce来实现虽然是经典用例,但是现实起来还是比较复杂的。

下面介绍如何用hive来实现单词统计。

首先准备一个记录单词的word.txt


然后在hive中新建一个表

并将word.txt的数据导入到该表中


然后运行如下的命令

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;
结果如下


其中对该命令进行分析:

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;
select explode(split(line,' ')) as wordtxt from word

不能直接对wordtxt进行group by,因为这个wordtxt不是列属性,所以需要在外面将这个表设置为as tt作为一个表,而此时wordtxt作为tt表的一个属性,这样才能进行group by。



最后

以上就是敏感小蜜蜂为你收集整理的用Hive实现MapReduce的单词统计的全部内容,希望文章能够帮你解决用Hive实现MapReduce的单词统计所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(69)

评论列表共有 0 条评论

立即
投稿
返回
顶部