概述
-
yarn历史服务器,查看mapreduce、spark任务、hive on spark任务
hadoop103:8088/cluster -
点击yarn历史服务器的一个任务后的history 会调到spark 具体的执行日志。(自定义端口为4000)
http://hadoop102:4000/
hdfs对应位置为:hdfs://yang-HA/sparkLog_dir -
hive on spark 任务 执行失败后查看详细日志
默认路径在:/tmp/atguigu/hive.log -
集群高可用
hadoop高可用 即 namenode高可用,resourceManager高可用。这里修改了namenode的通信端口为9000,默认为8020
(namenode的web访问地址,默认端口为9870)
在hdfs-site.xml中配置属性:dfs.nameservices 为:yang-HA
在core-site.xml中配置属性:fs.defaultFS 为:hdfs://yang-HA注:搭建大数据高可用集群,最重要的是配置文件:
hadoop:core-site.xml, hdfs-site.xml, yarn-site.xml (hdfs高可用,yarn高可用)
hive: hive-site.xml (hive也可以配置高可用集群,比如在hadoop103分发一个,而且要安装mysql)
spark: spark-env.sh,spark-default.xml(将hadoop的core-site.xml和hdfs-site.xml复制到spark的配置文件夹中,应该会优先读取spark的配置信息),spark的高可用是master的高可用。即特有的调度系统standalone 下的。包括master -> resourceManager,
worker -> nodeManager。
所以如果spark使用的是yarn模式,那么就不用配置什么master,worker。因为之前yarn已经配置过高可用。
比如在hadoop103 再启动一个master: sbin/start-master.sh
由Zookeeper管理Master
查看zookeeper中大数据某个组件是否为active或者standby步骤:- zkCli.sh
- ls /
- get /…/…/* 查看具体哪个节点为active
搭建参考博客:https://blog.csdn.net/czladamling/article/details/121282315。
搭建时因为比较麻烦,配置文件很多,要细心。注意要有集群意识,不是在单个节点在战斗。
节点(dfs集群:yang-HA) | namenode | datanode | DFSZK | resourceManager | nodeManager | Jn | zk | spark |
---|---|---|---|---|---|---|---|---|
hadoop102 | √ | √ | √ | √ | √ | √ | √ | |
hadoop103 | √ | √ | √ | √ | √ | √ | √ | √ |
hadoop104 | √ | √ | √ | √ | √ | √ |
缩写 | 全称 | 作用 |
---|---|---|
Nm | Namenode | 元数据节点 |
Rm | ResourceManager | yarn资源管理节点 |
DFSZK | DFSZKFailoverController | zookeeper监控节点,Ha配置 |
Jn | JournalNode | 同步NameNode之间数据,Ha配置 |
Nm | NodeManager | yarn单节点管理,与Rm通信 |
Dn | Datanode | 数据节点 |
集群 | 版本号 | 端口 |
---|---|---|
hdfs | 3.1.3 | namenode的web访问地址,默认端口为9870 |
Yarn | 3.1.3 | 8088 查看所有的application |
MapReduce JobHistory Server | 3.1.3 | 19888 查看mapredue任务日志 |
Spark-master | 3.0.0 | 8989 standalone模式下 |
Spark-histoory | 3.0.0 | 4000 |
Zookeeper | 3.5.7 | 2181 |
最后
以上就是欢喜小海豚为你收集整理的大数据集群搭建概述的全部内容,希望文章能够帮你解决大数据集群搭建概述所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复