概述
目录
一、CM & CDH简介(***了解***)
1.Apache Hadoop 不足之处
2.CDH是什么?
3.CDH的优点?
4.CDH版本介绍(***了解***)
5.CDH版本下载地址
6.CDH支持的安装方式
7.Cloudera Manager(CM)介绍
8.为什么要学习CM?
9.CM & CDH版本下载
二、CM & CDH安装
1.软件环境
2.安装准备
3.CM安装
4.CM启动 & CDH安装
一、CM & CDH简介(***了解***)
1.Apache Hadoop 不足之处
- 版本管理混乱
- 部署过程繁琐、升级过程复杂
- 兼容性差
- 安全性低
2.CDH是什么?
- 全称Cloudera’s Distribution Including Apache Hadoop,是面向hadoop的企业级部署,是hadoop发行版本之一。
- 由Cloudera公司维护,基于稳定版本的Apache Hadoop构建。
- 提供了Hadoop的核心:可扩展存储、分布式计算。
- 基于web的用户界面
hadoop包含很多发行版本,如:
- Apache Hadoop
- Cloudera’s Distribution Including Apache Hadoop(CDH)
- Hortonworks Data Platform (HDP)
- MapR
- EMR
...
Cloudera公司简介:
- 是一家位于美国的软件公司,向企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。
- 出售基于Hadoop的软件,也发布自家版本的Hadoop产品,帮助订阅客户管理数据。
- Cloudera还是Apache软件基金会的赞助商。
3.CDH的优点?
- 版本划分清晰
- 版本更新速度快
- 支持Kerberos安全认证
- 文档清晰
- 支持多种安装方式(Cloudera Manager方式)
-
4.CDH版本介绍(***了解***)
- 截至目前为止,CDH共有5个版本,其中,前两个已经不再更新。
- CDH3:基于hadoop稳定版0.20.2,并集成很多补丁(patch)。
- CDH4:基于Hadoop0.23的,但是它采用新的MapReduce,即MapReduce2.0,又叫Yarn。
- CDH5:最新版本,目前每隔一段时间便会更新一次。
5.CDH版本下载地址
- CDH3:http://archive.cloudera.com/cdh/3/
- CDH4:http://archive.cloudera.com/cdh4/cdh/4/
- CDH5:http://archive.cloudera.com/cdh5/cdh/5/
6.CDH支持的安装方式
- yum/apt
- tar包/rpm包
- Tarball
- Cloudera manager
- CDH-5.10.1-1.cdh5.10.1.p0.10
7.Cloudera Manager(CM)介绍
- Cloudera Manager是一个管理CDH的端到端的应用。
- 负责安装软件,配置,启动和停止服务,以及管理上的服务运行群集。
- 承载管理控制台的Web服务器和应用程序逻辑。
8.为什么要学习CM?
- 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
- 只给你一天时间,能否完成以上工作?
- 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?
- 与新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?
9.CM & CDH版本下载
- http://archive.cloudera.com/cm5/cm/5/(这里以5.10.0版本为例)
- http://archive.cloudera.com/cdh5/parcels/5/(这里以5.10.0版本为例)
二、CM & CDH安装
1.软件环境
- CentOS7
- JDK1.7
- mysql5.5
- cloudera manager5.10.0
- CDH5.10
2.安装准备
- 每个节点要3G以上内存,官方推荐主节点64G内存,子节点10G内存这里用每个节点20G为例
- 配置主机名vi /etc/hostname,其他节点相同操作
master
node1
node2
......
- 配置hosts映射vi /etc/hosts,其他节点相同操作
- 时间同步,所以节点输入date -s "2017-6-13 22:26:00",统一时间 也可以设置nftp时间服务器
- 关闭防火墙
- 禁用selinux
- 如果是centos系统,默认会开启selinux
- 关闭它,打开vi /etc/selinux/config,把SELINUX=enforcing改为SELINUX=disabled后存盘退出,重启机器
- 实现ssh无密通信ssh-keygen -t rsa
- 将秘钥拷到所有节点ssh-copy-id node1
- 所有节点输入 yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse portmap fuse-libs redhat-lsb
- 安装mysql5.5,这里直接在master节点安装
- mkdir /usr/local/mysql
- 看linu是否安装了mysql,经过rpm -qa|grep mysql查看到centos下安装了mysql5.1,那就开始卸载
- 上传zip,输入 unzip 包名 ,进行解压
- 输入 yum -y remove mariadb-libs-1:5.5.44-2.el7.centos.x86_64 解决兼容问题
- yum list installed | grep mysql
- 如果有,就先全部卸载,命令如下:
- yum -y remove mysql-libs.x86_64
- 若有多个依赖文件则依次卸载。当结果显示为 Complete!即卸载完毕
- 显示完成,则已经删除依赖。
- 输入 rpm -ivh MySQL-server-5.5.54-1.el7.x86_64.rpm MySQL-client-5.5.54-1.el7.x86_64.rpm MySQL-devel-5.5.54-1.el7.x86_64.rpm ,进行安装
- 安装成功后,输入 service mysql start 启动mysql
- 输入 chkconfig mysql on 设置为开机自启动
- 输入 mysqladmin -uroot password admin ,设置密码为admin
- 输入 mysql -u root -p 进入mysql
- 输入 create database oozie DEFAULT CHARACTER SET utf8; 建库
- 输入 create database hive DEFAULT CHARACTER SET utf8; 建库
- 输入 create database manager DEFAULT CHARACTER SET utf8; 建库
- 输入 create database monitor DEFAULT CHARACTER SET utf8; 建库
- 输入 GRANT ALL PRIVILEGES ON *.* TO 'root'@'master' IDENTIFIED BY 'admin' WITH GRANT OPTION; 远程授权
- 输入 FLUSH PRIVILEGES; 刷新修改
- 输入 exit 退出
- 所有节点执行 useradd --system --home=/opt/cloudera-manager/cm-5.4.3/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm 添加用户
- 新建 /usr/share/java 目录,将mysql驱动包放入,并改名为 mysql-connector-java.jar
3.CM安装
- 在master节点输入 /opt/cloudera 新建目录
- 上传tar包到新建的目录并解压
- 输入 vi /opt/cloudera/cm-5.10.0/etc/cloudera-scm-agent/config.ini 修改配置文件中的server.hosts为master,也就是主节点的主机名
- 将mysql的驱动包放入 /opt/cloudera/cm-5.10.0/share/cmf/lib/ 目录
- 将 /opt/cloudera/ 用scp命令同步到所有节点
- scp -r /opt/cloudera/ root@node1:/opt/
- scp -r /opt/cloudera/ root@node2:/opt/
- 在主节点输入 mkdir /opt/cloudera/parcel-repo/ 新建文件夹,然后输入 chown cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo/赋予权限
- 在所有从节点输入 mkdir /opt/cloudera/parcels/ 新建文件夹,然后输入 chown cloudera-scm:cloudera-scm /opt/cloudera/parcels/ 赋予权限
- 将下载好的3个文件(1个json文件和2个parcel文件)上传到主节点的 /opt/cloudera/parcel-repo/ 目录
- 进入主节点的 /opt/cloudera/cm-5.10.0/share/cmf/schema/ 目录,输入 ./scm_prepare_database.sh mysql cm -hmaster -uroot -p --scm-host master scm scm scm 初始化数据库
- 看到successfully则表明初始化成功
- 输入mysql -uroot -p,进入mysql,输入show databases;
- 初始化成功
4.CM启动 & CDH安装
- 主节点中进入 /opt/cloudera/cm-5.10.0/etc/init.d/ 目录,输入 ./cloudera-scm-server start 启动服务端,再输入 ./cloudera-scm-agent start 启动agent
- 在所有从节点进入 /opt/cloudera/cm-5.10.0/etc/init.d/ 目录,输入 ./cloudera-scm-agent start 启动agent
- 打开浏览器,访问主节点的7180端口,首次启动需要多等待一些时间才能访问到,因为cloudera manager正在初始化一些数据表(有些浏览器可能会无法访问,这里我用谷歌可以访问到这个页面)
- 进入页面后,用户名和密码都是 admin,点击登陆,如下图
- 进入下图,接受许可,点击继续
- 选择60天试用版本,如下图,然后继续
- 进入下图,点击继续
- 点击选项卡中的“当前管理的主机”,将所有主机都勾选,然后点击继续,如下图
- 进入下图,点击继续
- 等待CM自动安装配置CDH,如下图
- 安装完成后点击继续,检查主机正确性如下图:
- 检验可能遇到以下问题
- 在所有节点输入 sysctl vm.swappiness=10 按照建议,更改交换空间
- 在所有节点输入 vi /etc/sysctl.conf ,在最后加入 vm.swappiness=10 ,使配置永久生效
- 在所有节点执行 echo never > /sys/kernel/mm/transparent_hugepage/defrag ,然后点击完成
- 集群设置,这里我选择自定义,选择自己需要的环境,其他需要依赖的会自动创建,如下图(这里选择了Impala,Oozie,Solr),然后点击继续
- 服务配置一般按默认就可以,如需特殊调整,自行设置,然后点击继续,这里默认配置如下:
- 接下来数据库设置,输入对应库的名称,用户名和密码,然后点击测试连接,当测试通过后,点击继续
- 接下来是集群审核页面,这里默认就可以,点击继续
- 等待安装,安装完成点击继续,如下图:
- 安装完成如下图,点击完成
- 集群运行状况如下所示:
- 缺少mysql驱动包会出现:
- 解决:find / -name lib ,查找hive的lib目录,将驱动包放入
- HDFS的dataNode节点小于副本个数,会出现
- 解决:
- 增加dataNode节点
最后
以上就是魁梧灯泡为你收集整理的CenOS7下CM&CDH大数据平台搭建的全部内容,希望文章能够帮你解决CenOS7下CM&CDH大数据平台搭建所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复