Linux安装部署Hadoop及统计单词次数测试

107 阅读 0 评论 71 点赞

我是靠谱客的博主淡然奇异果，这篇文章主要介绍Linux安装部署Hadoop及统计单词次数测试，现在分享给大家，希望可以做个参考。

今天来一起学习一下Linux安装以及部署Hadoop环境

Ps：需要安装jdk，没有安装的小伙伴移步到：点我快速进入安装jdk文章

一、下载Hadoop及上传服务器（两种方式）

1、手动下载然后上传服务器下载地址：https://hadoop.apache.org/releases.html

file

2、自动下载

复制代码

1
2
命令：wget http://apache.fayea.com/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

file

以上任选其一进行下载删除，创建文件夹已经怎么上传我就不赘述了。你看了我很多博客，你已经是个成熟的程序员了。

file

二、解压Hadoop压缩包

file

三、ssh安装

3.1、安装ssh：

file

复制代码

1
2
yum install openssh-server

3.2、创建ssh文件夹，在ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是一对私钥和公钥，然后把id_dsa.pub(公钥)追加到授权的key里面去。

file

3.3登录ssh

file

复制代码

1
2
3
4
1、登录ssh：ssh localhost
2、第一次会询问是否继续 输入yes即可（没提示忽略此话）
3、输入密码：服务器密码

四、配置Hadoop

4.1找到你本地jdk目录（没有安装jdk请移步点我快速进入安装jdk文章）

file

4.2修改/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hadoop-env.sh 指定jdk的安装目录

file

复制代码

1
2
3
4
进入目录：cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/
修改命令：vim hadoop-env.sh
修改jdk安装目录：export JAVA_HOME=/DATA/jdk/jdk1.8.0_211

4.3创建一个hadoop运行时产生文件的存储路径文件夹

file

复制代码

1
2
3
进入目录：cd /kingyifan/hadoop/hadoop-2.7.7
创建目录：mkdir temp

4.4 修改core-site.xml文件

file

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
进入目录：cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
创建目录：vim core-site.xml
增加以下配置：
<configuration>
<!-- 指定HDFS老大（namenode）的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://0.0.0.0:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/kingyifan/hadoop/hadoop-2.7.7/temp</value>
</property>
</configuration>

4.5修改hadoop2.7.3/etc/hadoop/hdfs-site.xml ：

file

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
修改文件：vim
/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hdfs-site.xml
增加以下配置：
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
</configuration>

五、启动hadoop

5.1 第一次启动需要格式化：

file

复制代码

1
2
格式化目录：/kingyifan/hadoop/hadoop-2.7.7/bin/hdfs namenode -format（此命令可以在任意目录下执行，因为hdfs目录是绝对路径）

file

5.2启动hdfs

file

复制代码

1
2
3
4
5
启动命令：/kingyifan/hadoop/hadoop-2.7.7/sbin/start-dfs.sh
输入第一次密码启动 namenode节点
输入第二次密码启动datanode节点 这个节点如果没启动则上传不了文件
输入第三次密码启动secondarynamenode节点

PS：切记要把三次密码输入正确，一定要把三个节点启动起来。不要用ctrl+c强制退出到控制台。

datanode节点没启动成功上传文件会报以下错误！

file

不知道启动没有启动成功：jps以下

file

复制代码

1
2
3

查看启动的服务：jps

ps：如果出现 root@0.0.0.0's password: 0.0.0.0: Permission denied, please try again. 解决方案如下：

file

5.3 关闭hdfs（此步骤可以不做。）

file

复制代码

1
2
 关闭hdfs命令： /kingyifan/hadoop/hadoop-2.7.7/sbin/stop-dfs.sh

5.4 修改iptables 增加50070端口访问权限

file

复制代码

1
2
3
4
修改iptables：vim /etc/sysconfig/iptables
增加-A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
重启防火墙：service iptables restart

5.5、访问ui页面：http://192.168.241.134:50070

file

六、安装yarn Hadoop的资源管理器

6.1、先甩一个百度百科的资源管理器资料。

file

6.2、配置mapred-site.xml文件

6.2.1 复制一个模板配置出来。

file

复制代码

1
2
3
4

进入目录：cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
复制一个模板出来：cp mapred-site.xml.template mapred-site.xml

6.2.2 修改刚刚复制的文件

file

复制代码

1
2
3
4
5
6
7
8
9
10
11
12

1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
2、修改文件 vim mapred-site.xml
3.、添加以下配置：
<configuration>
<!-- 通知框架MR使用YARN -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

6.3 修改yarn-site.xml:

file

复制代码

1
2
3
4
5
6
7
8
9
10
11
12

1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
2、修改文件vim yarn-site.xml
3.、添加以下配置：
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

6.4 YARN的启动

file

复制代码

1
2
3
4
启动命令：/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
输入服务器密码
jps 查询一下

6.5 关闭YARN

file

复制代码

1
2
3
 关闭命令：/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
输入服务器密码

6.6 修改iptables 增加一下8088端口

file

复制代码

1
2
3
4
5

进入iptables配置：vim /etc/sysconfig/iptables
增加8088配置：-A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
重启防火墙：service iptables restart

6.7、访问ui页面：http://192.168.241.134:8088/cluster

file

七、简单运行一个统计单词出现

7.1 在hadoop根目录创建一个test的文本文件夹

file

复制代码

1
2
3
4
 进入hadoop目录：cd /kingyifan/hadoop/hadoop-2.7.7
创建一个文本文件夹：vim test.txt
随便输入一点东西

7.2上传test.txt

file

复制代码

1
2
3
4
5
 上传hdfs根目录： /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop
fs
-put /kingyifan/hadoop/hadoop-2.7.7/test.txt
/

查看是否上传成功：

file

统计单词次数：

用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法，其中输入参数为 hdfs上根目录的test.txt 文件，而输出路径为 hdfs跟目录下的out目录，运行过程如下：

file

复制代码

1
2
3
4
命令： /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop
jar
/kingyifan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount hdfs://127.0.0.1:9000/test.txt hdfs://127.0.0.1:9000/out

查看执行结果：

file

点击Download 如果出现下面这种情况

file

增加iptables防火墙 50075配置

file

然后把访问路径localhost改为服务器ip地址。

file

打开part-r-0000文件查看统计单词次数：

file

以上就是单词统计出现次数程序

如果修改了test.txt 文件怎么重新计算呢。直接执行计算命令，会有以下报错。

file

报错原因说out目录已经存在

file

两种解决方案：

1.删除out目录

file

复制代码

1
2
命令：/kingyifan/hadoop/hadoop-2.7.7/bin/hadoop fs -rm -r /out out是目录名称

2.执行命令的时候把out改成别的例：out1 out2。。

重新计算单词个数步骤：

1.删除根目录test.txt文件

2.重新上传test.txt文件

3.删除out目录

4.执行计算命令（以上步骤都有。）

终、、

以上linux安装及部署Hadoop 以及测试统计单词出现次数有什么问题可以联系我哈。

鼓励作者写出更好的技术文档，就请我喝一瓶哇哈哈哈哈哈哈哈。。你们的赞助决定我更新的速度哦！

微信：

支付宝：

复制代码

1
2
3
4
5
6
7
感谢一路支持我的人。。。。。
Love me and hold me
QQ:69673804（16年老号）
EMAIL:itw@tom.com
友链交换
如果有兴趣和本博客交换友链的话，请按照下面的格式在评论区进行评论，我会尽快添加上你的链接。

复制代码

1
2
3
4
5
网站名称：KingYiFan’S Blog
网站地址：http://blog.cnbuilder.cn
网站描述：年少是你未醒的梦话，风华是燃烬的彼岸花。
网站Logo/头像： [头像地址](https://blog.cnbuilder.cn/upload/2018/7/avatar20180720144536200.jpg)