概述
今天来一起学习一下Linux安装以及部署Hadoop环境
Ps:需要安装jdk,没有安装的小伙伴移步到:点我快速进入安装jdk文章
一、下载Hadoop及上传服务器(两种方式)
1、手动下载然后上传服务器 下载地址:https://hadoop.apache.org/releases.html
2、自动下载
命令:wget http://apache.fayea.com/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
以上任选其一进行下载删除,创建文件夹已经怎么上传 我就不赘述了。 你看了我很多博客,你已经是个成熟的程序员了。
二、解压Hadoop压缩包
三、ssh安装
3.1、安装ssh:
yum install openssh-server
3.2、创建ssh文件夹,在ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是一对私钥和公钥,然后把id_dsa.pub(公钥)追加到授权的key里面去。
3.3登录ssh
1、登录ssh:ssh localhost
2、第一次会询问是否继续 输入yes即可(没提示忽略此话)
3、输入密码:服务器密码
四、配置Hadoop
4.1找到你本地jdk目录(没有安装jdk请移步点我快速进入安装jdk文章)
4.2修改/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hadoop-env.sh 指定jdk的安装目录
进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/
修改命令:vim hadoop-env.sh
修改jdk安装目录:export JAVA_HOME=/DATA/jdk/jdk1.8.0_211
4.3创建一个hadoop运行时产生文件的存储路径文件夹
进入目录:cd /kingyifan/hadoop/hadoop-2.7.7
创建目录:mkdir temp
4.4 修改core-site.xml文件
进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
创建目录:vim core-site.xml
增加以下配置:
<configuration>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://0.0.0.0:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/kingyifan/hadoop/hadoop-2.7.7/temp</value>
</property>
</configuration>
4.5修改hadoop2.7.3/etc/hadoop/hdfs-site.xml :
修改文件:vim
/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hdfs-site.xml
增加以下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
</configuration>
五、启动hadoop
5.1 第一次启动需要格式化:
格式化目录:/kingyifan/hadoop/hadoop-2.7.7/bin/hdfs namenode -format(此命令可以在任意目录下执行,因为hdfs目录是绝对路径)
5.2启动hdfs
启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-dfs.sh
输入第一次密码启动 namenode节点
输入第二次密码启动datanode节点 这个节点如果没启动则上传不了文件
输入第三次密码启动secondarynamenode节点
PS:切记要把三次密码输入正确,一定要把三个节点启动起来。不要用ctrl+c强制退出到控制台。
datanode节点没启动成功 上传文件会报以下错误!
不知道启动没有启动成功:jps以下
查看启动的服务:jps
ps:如果出现 root@0.0.0.0's password: 0.0.0.0: Permission denied, please try again. 解决方案如下:
5.3 关闭hdfs(此步骤可以不做。)
关闭hdfs命令: /kingyifan/hadoop/hadoop-2.7.7/sbin/stop-dfs.sh
5.4 修改iptables 增加50070端口访问权限
修改iptables:vim /etc/sysconfig/iptables
增加-A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
重启防火墙:service iptables restart
5.5、访问ui页面:http://192.168.241.134:50070
六、安装yarn Hadoop的资源管理器
6.1、先甩一个百度百科的资源管理器资料。
6.2、配置mapred-site.xml文件
6.2.1 复制一个模板配置出来。
进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
复制一个模板出来:cp mapred-site.xml.template mapred-site.xml
6.2.2 修改刚刚复制的文件
1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
2、修改文件 vim mapred-site.xml
3.、添加以下配置:
<configuration>
<!-- 通知框架MR使用YARN -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
6.3 修改yarn-site.xml:
1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
2、修改文件vim yarn-site.xml
3.、添加以下配置:
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
6.4 YARN的启动
启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
输入服务器密码
jps 查询一下
6.5 关闭YARN
关闭命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
输入服务器密码
6.6 修改iptables 增加一下8088端口
进入iptables配置:vim /etc/sysconfig/iptables
增加8088配置:-A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
重启防火墙:service iptables restart
6.7、访问ui页面:http://192.168.241.134:8088/cluster
七、简单运行一个统计单词出现
7.1 在hadoop根目录 创建一个test的文本文件夹
进入hadoop目录:cd /kingyifan/hadoop/hadoop-2.7.7
创建一个文本文件夹:vim test.txt
随便输入一点东西
7.2上传test.txt
上传hdfs根目录: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop
fs
-put /kingyifan/hadoop/hadoop-2.7.7/test.txt
/
查看是否上传成功:
统计单词次数:
用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法,其中输入参数为 hdfs上根目录的test.txt 文件,而输出路径为 hdfs跟目录下的out目录,运行过程如下:
命令: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop
jar
/kingyifan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount hdfs://127.0.0.1:9000/test.txt hdfs://127.0.0.1:9000/out
查看执行结果:
点击Download 如果出现下面这种情况
增加iptables防火墙 50075配置
然后把访问路径localhost改为服务器ip地址。
打开part-r-0000文件查看统计单词次数:
以上就是单词统计出现次数程序
如果修改了test.txt 文件怎么重新计算呢。直接执行计算命令,会有以下报错。
报错原因 说out目录已经存在
两种解决方案:
1.删除out目录
命令:/kingyifan/hadoop/hadoop-2.7.7/bin/hadoop fs -rm -r /out out是目录名称
2.执行命令的时候把out改成别的 例:out1 out2。。
重新计算单词个数步骤:
1.删除根目录test.txt文件
2.重新上传test.txt文件
3.删除out目录
4.执行计算命令(以上步骤都有。)
终、、
以上linux安装及部署Hadoop 以及测试统计单词出现次数 有什么问题可以联系我哈。
鼓励作者写出更好的技术文档,就请我喝一瓶哇哈哈哈哈哈哈哈。。你们的赞助决定我更新的速度哦!
微信:
支付宝:
感谢一路支持我的人。。。。。
Love me and hold me
QQ:69673804(16年老号)
EMAIL:itw@tom.com
友链交换
如果有兴趣和本博客交换友链的话,请按照下面的格式在评论区进行评论,我会尽快添加上你的链接。
网站名称:KingYiFan’S Blog
网站地址:http://blog.cnbuilder.cn
网站描述:年少是你未醒的梦话,风华是燃烬的彼岸花。
网站Logo/头像: [头像地址](https://blog.cnbuilder.cn/upload/2018/7/avatar20180720144536200.jpg)
最后
以上就是淡然奇异果为你收集整理的Linux安装部署Hadoop及统计单词次数测试的全部内容,希望文章能够帮你解决Linux安装部署Hadoop及统计单词次数测试所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复