概述
1 组件安装路径: /opt/cloudera/parcels/CDH/lib
2 组件配置路径: /etc/组件名/conf 步骤1 通过软链接指过来
hadoop配置文件路径:/opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop (hadoop软链接 -->/etc/hadoop/conf)
/etc/hadoop/conf 软连接指向/etc/alternatives/hadoop-conf
hadoop-conf又通过软链接指向: /etc/hadoop/conf.cloudera.yarn 这才是真实的hdfs配置文件路径
注:如果没有安装hdfs: hadoop-conf指向目录为:/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/hadoop/conf.empty
hadoop命令定位HDFS namenode就是依据上述配置路径。 在没有安装HDFS的情况下,我们可以手动设置软链接指向,即可使用hadoop命令。
hive配置文件路径:/opt/cloudera/parcels/CDH/lib/hive/conf (conf软链接 -->/etc/hive/conf)
3 组件命令行直接输入可以运行。如hadoop hive命令
PATH: /bin/hadoop /usr/bin/hadoop
上述2者都是 软链接 指向 /etc/alternatives/hadoop ,这里又软链接指向 /opt/cloudera/parcels/CDH/bin/hadoop
4 日志路径(参看 6运行时路径, log4j.properties):
Cloudera server日志路径:
/var/log/cloudera-scm-server/cloudera-scm-server.log
Agent日志路径:
/var/log/cloudera-agent-server/cloudera-scm-agent.log
HDFS日志路径:
各namenode的日志类似
/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-hadoop000.log.out
各datanode的日志类似
/var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-hadoop001.log.out
Journal node日志路径
/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-hadoop002.log.out
KAFKA日志路径:
/var/log/kafka/kafka-broker-hadoop002.log
YARN
nodemanager 日志: /var/log/hadoop-yarn/hadoop-cmf-yarn-NODEMANAGER-hadoop002.log.out
resourcemanager: /var/log/hadoop-yarn/hadoop-cmf-yarn-RESOURCEMANAGER-hadoop001.log.out
job history 服务器日志路径:/var/log/hadoop-mapreduce/hadoop-cmf-yarn-JOBHISTORY-hadoop001.log.out
/var/log/
5 数据路径
namenode数据路径:
/dfs/nn/current current/VERSION 下会保存namenode所属的CLUSTERID,
datanode数据路径:
/datax/dfs/dn (默认/dfs/dn) 路径 current/VERSION 下会保存datanode节点所属的CLUSTERID,
此ID必须同NAMENODE cluster id一致,否则无法启动。
Journalnode同步edit log数据路径:
/datax/dfs/jnn
brokerid 在配置项可以自行指定修改对应参数。
笔者 重装CDH时,忘记删除目录数据,导致重装后启动失败。
kafka数据路径:
/var/local/kafka/data
/var/local/kafka/data/meta.properties会保存brokerid信息。如果broke id同集群的ID不匹配,启动会报错。
笔者重装CDH时,也是忘记删除此目录数据,导致无法启动kafka.
6 运行时路径。[各组件运行时,实际的配置文件路径]
CDH的相关组件重启时都会动态生成新的配置文件启动,依据CDH管理配置界面各组件的配置来动态生成最新的配置文件。
在此路径下,通过log4j.properties, 可以看到对应的日志文件路径。
HDFS重启时,也会动态生成相关配置路径
如:core-site.xml,hdfs-site.xml,log4j.properties
/run/cloudera-scm-agent/process/76-hdfs-DATANODE
启动时stderr,stdout输出日志路径就在此目录下log路径查看。
Kafka重启时,每次都会动态生成下述目录,99 每次递增(数字根据各类事件顺序递增). 目录下会根据最新的配置文件,产生相关配置文件。
如kafka.properties, kafka-monitor.properties以及日志log4j.properites
/run/cloudera-scm-agent/process/99-kafka-KAFKA_BROKER
log4j.properites配置了broker日志路径: /var/log/kafka/kafka-broker-hadoop001.log
HIVESERVER2:
/var/run/cloudera-scm-agent/process/248-hive-HIVESERVER2
7 yarn job日志路径:
yarn.nodemanager.remote-app-log-dir参数,配置了Yarn application开启日志聚合时,指定的日志聚合路径。
一旦应用程序跑完,相关日志会立即被删除,并被转移到聚合路径下。
yarn job日志查看方法:以spark job为例:
yarn job ,主要分为 AM和 container两大类容器:
1)AM的日志主要为job容器管理职责,相关启动容器分配资源的日志信息
保存路径也在默认在节点本地路径:
/data1/yarn/container-logs/application_1587434606227_0004/container_1587434606227_0004_01_000001
application_1587434606227_0004 为applicationId
container_1587434606227_0004_01_000001 为AM容器id
AM所在节点,可以在WEB UI上查看。
2)一般子task运行的日志在container容器中查看:
默认保存在节点本地:/data1/yarn/logs/appliaciotnID/containerId下
具体executor路径可以查看所在节点:通过AM的 track url进入executor界面:
a)
b)
3)注: 如果启用了日志聚合,task运行完毕, 上述路径的所有容器日志都会删除,并统一搜集到 HDFS路径下: /tmp/logs/[username]/logs .
a) 可以WEB ui 点击各logs下的链接stdout, stderr查看
b) 也可以通过任一节点: yarn logs -applicationId application_1587434606227_0004 查看聚合日志信息。
日志输出包含多个容器日志清单:
上述例子:先输出: 000003,000002容器日志,最后输出AM容器(spark driver) 00001
c)通过 hadoop fs -cat 查看,
如下列表。 效果同 yarn logs命令一样。
8 组件启动目录
CDH组件启动目录都是在 /opt/cloudera/cm-agent/service
如hiveserver2在WEB端重启的时候,实际会使用的重启脚本,如下:
停止hiveserver2角色: 具体命令待确认?
启动hiveserver2: /opt/cloudera/cm-agent/service/hive/hive.sh hiveserver2
还会启动一些辅助进程:
Re-exec watcher: /opt/cloudera/cm-agent/bin/cm proc_watcher 71255
Re-exec redactor: /opt/cloudera/cm-agent/bin/cm redactor --fds 3 5
最后
以上就是感动白云为你收集整理的CDH目录结构 的全部内容,希望文章能够帮你解决CDH目录结构 所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复