我是靠谱客的博主 欢喜小海豚,最近开发中收集的这篇文章主要介绍大数据集群搭建概述,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

  1. yarn历史服务器,查看mapreduce、spark任务、hive on spark任务
    hadoop103:8088/cluster

  2. 点击yarn历史服务器的一个任务后的history 会调到spark 具体的执行日志。(自定义端口为4000)
    http://hadoop102:4000/
    hdfs对应位置为:hdfs://yang-HA/sparkLog_dir

  3. hive on spark 任务 执行失败后查看详细日志
    默认路径在:/tmp/atguigu/hive.log

  4. 集群高可用

    hadoop高可用 即 namenode高可用,resourceManager高可用。这里修改了namenode的通信端口为9000,默认为8020
    (namenode的web访问地址,默认端口为9870)
    在hdfs-site.xml中配置属性:dfs.nameservices 为:yang-HA
    在core-site.xml中配置属性:fs.defaultFS 为:hdfs://yang-HA

    注:搭建大数据高可用集群,最重要的是配置文件:
    hadoop:core-site.xml, hdfs-site.xml, yarn-site.xml (hdfs高可用,yarn高可用)
    hive: hive-site.xml (hive也可以配置高可用集群,比如在hadoop103分发一个,而且要安装mysql)
    spark: spark-env.sh,spark-default.xml(将hadoop的core-site.xml和hdfs-site.xml复制到spark的配置文件夹中,应该会优先读取spark的配置信息),spark的高可用是master的高可用。即特有的调度系统standalone 下的。

    包括master -> resourceManager,

    worker -> nodeManager。

    所以如果spark使用的是yarn模式,那么就不用配置什么master,worker。因为之前yarn已经配置过高可用。

    比如在hadoop103 再启动一个master: sbin/start-master.sh

    由Zookeeper管理Master
    查看zookeeper中大数据某个组件是否为active或者standby步骤:

    1. zkCli.sh
    2. ls /
    3. get /…/…/* 查看具体哪个节点为active

搭建参考博客:https://blog.csdn.net/czladamling/article/details/121282315。

搭建时因为比较麻烦,配置文件很多,要细心。注意要有集群意识,不是在单个节点在战斗。

节点(dfs集群:yang-HA)namenodedatanodeDFSZKresourceManagernodeManagerJnzkspark
hadoop102
hadoop103
hadoop104
缩写全称作用
NmNamenode元数据节点
RmResourceManageryarn资源管理节点
DFSZKDFSZKFailoverControllerzookeeper监控节点,Ha配置
JnJournalNode同步NameNode之间数据,Ha配置
NmNodeManageryarn单节点管理,与Rm通信
DnDatanode数据节点
集群版本号端口
hdfs3.1.3namenode的web访问地址,默认端口为9870
Yarn3.1.38088 查看所有的application
MapReduce JobHistory Server3.1.319888 查看mapredue任务日志
Spark-master3.0.08989 standalone模式下
Spark-histoory3.0.04000
Zookeeper3.5.72181

最后

以上就是欢喜小海豚为你收集整理的大数据集群搭建概述的全部内容,希望文章能够帮你解决大数据集群搭建概述所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部