我是靠谱客的博主 魁梧灯泡,最近开发中收集的这篇文章主要介绍CenOS7下CM&CDH大数据平台搭建,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

目录

 

一、CM & CDH简介(***了解***)

1.Apache Hadoop 不足之处

2.CDH是什么?

3.CDH的优点?

4.CDH版本介绍(***了解***)

5.CDH版本下载地址

6.CDH支持的安装方式

7.Cloudera Manager(CM)介绍

8.为什么要学习CM?

9.CM & CDH版本下载

二、CM & CDH安装

1.软件环境

2.安装准备

3.CM安装

4.CM启动 & CDH安装


一、CM & CDH简介***了解***

1.Apache Hadoop 不足之处

  • 版本管理混乱
  • 部署过程繁琐、升级过程复杂
  • 兼容性差
  • 安全性低

2.CDH是什么?

  • 全称Cloudera’s Distribution Including Apache Hadoop,是面向hadoop的企业级部署,是hadoop发行版本之一。
  • 由Cloudera公司维护,基于稳定版本的Apache Hadoop构建。
  • 提供了Hadoop的核心:可扩展存储、分布式计算。
  • 基于web的用户界面

hadoop包含很多发行版本,如:

  1. Apache Hadoop
  2. Cloudera’s Distribution Including Apache Hadoop(CDH)
  3. Hortonworks Data Platform (HDP)
  4. MapR
  5. EMR

...

Cloudera公司简介:

  1. 是一家位于美国的软件公司,向企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。
  2. 出售基于Hadoop的软件,也发布自家版本的Hadoop产品,帮助订阅客户管理数据。
  3. Cloudera还是Apache软件基金会的赞助商。

3.CDH的优点?

  • 版本划分清晰
  • 版本更新速度快
  • 支持Kerberos安全认证
  • 文档清晰
  • 支持多种安装方式(Cloudera Manager方式)
  • 4.CDH版本介绍(***了解***

  • 截至目前为止,CDH共有5个版本,其中,前两个已经不再更新。
  • CDH3:基于hadoop稳定版0.20.2,并集成很多补丁(patch)。
  • CDH4:基于Hadoop0.23的,但是它采用新的MapReduce,即MapReduce2.0,又叫Yarn。
  • CDH5:最新版本,目前每隔一段时间便会更新一次。

5.CDH版本下载地址

  • CDH3:http://archive.cloudera.com/cdh/3/
  • CDH4:http://archive.cloudera.com/cdh4/cdh/4/
  • CDH5:http://archive.cloudera.com/cdh5/cdh/5/

6.CDH支持的安装方式

  • yum/apt
  • tar包/rpm包
  • Tarball
  • Cloudera manager
  • CDH-5.10.1-1.cdh5.10.1.p0.10

7.Cloudera ManagerCM)介绍

  • Cloudera Manager是一个管理CDH的端到端的应用。
  • 负责安装软件,配置,启动和停止服务,以及管理上的服务运行群集。
  • 承载管理控制台的Web服务器和应用程序逻辑。

8.为什么要学习CM

  • 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等
  • 只给你一天时间,能否完成以上工作?
  • 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?
  • 与新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?

9.CM & CDH版本下载

  • http://archive.cloudera.com/cm5/cm/5/(这里以5.10.0版本为例)
  • http://archive.cloudera.com/cdh5/parcels/5/(这里以5.10.0版本为例)

二、CM & CDH安装

1.软件环境

  • CentOS7
  • JDK1.7
  • mysql5.5
  • cloudera manager5.10.0
  • CDH5.10

2.安装准备

  • 每个节点要3G以上内存,官方推荐主节点64G内存,子节点10G内存这里用每个节点20G为例
  • 配置主机名vi /etc/hostname,其他节点相同操作

master

node1

node2

    ......

  • 配置hosts映射vi /etc/hosts,其他节点相同操作
  • 时间同步,所以节点输入date -s "2017-6-13 22:26:00",统一时间    也可以设置nftp时间服务器
  • 关闭防火墙
  • 禁用selinux
  •   如果是centos系统,默认会开启selinux
  • 关闭它,打开vi /etc/selinux/config,把SELINUX=enforcing改为SELINUX=disabled后存盘退出,重启机器
  • 实现ssh无密通信ssh-keygen -t rsa
  • 将秘钥拷到所有节点ssh-copy-id node1
  • 所有节点输入 yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse portmap fuse-libs redhat-lsb
  • 安装mysql5.5,这里直接在master节点安装
  • mkdir /usr/local/mysql 
  •    看linu是否安装了mysql,经过rpm -qa|grep mysql查看到centos下安装了mysql5.1,那就开始卸载
  • 上传zip,输入 unzip 包名 ,进行解压
  • 输入 yum -y remove mariadb-libs-1:5.5.44-2.el7.centos.x86_64 解决兼容问题
  •  
  • yum list installed | grep mysql
  •  
  • 如果有,就先全部卸载,命令如下:
  • yum -y remove mysql-libs.x86_64
  • 若有多个依赖文件则依次卸载。当结果显示为 Complete!即卸载完毕
  • 显示完成,则已经删除依赖。
  •  
  • 输入 rpm -ivh MySQL-server-5.5.54-1.el7.x86_64.rpm MySQL-client-5.5.54-1.el7.x86_64.rpm MySQL-devel-5.5.54-1.el7.x86_64.rpm  ,进行安装
  • 安装成功后,输入 service mysql start 启动mysql
  • 输入 chkconfig mysql on 设置为开机自启动
  • 输入 mysqladmin -uroot password admin  ,设置密码为admin
  • 输入 mysql -u root -p 进入mysql
  • 输入 create database oozie DEFAULT CHARACTER SET utf8; 建库
  • 输入 create database hive DEFAULT CHARACTER SET utf8; 建库
  • 输入 create database manager DEFAULT CHARACTER SET utf8; 建库
  • 输入 create database monitor DEFAULT CHARACTER SET utf8; 建库
  • 输入 GRANT ALL PRIVILEGES ON *.* TO 'root'@'master' IDENTIFIED BY 'admin' WITH GRANT OPTION; 远程授权
  • 输入 FLUSH PRIVILEGES; 刷新修改
  • 输入 exit 退出
  • 所有节点执行 useradd --system --home=/opt/cloudera-manager/cm-5.4.3/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm  添加用户
  • 新建 /usr/share/java 目录,将mysql驱动包放入,并改名为 mysql-connector-java.jar

3.CM安装

  • 在master节点输入 /opt/cloudera 新建目录
  • 上传tar包到新建的目录并解压
  • 输入 vi /opt/cloudera/cm-5.10.0/etc/cloudera-scm-agent/config.ini   修改配置文件中的server.hosts为master,也就是主节点的主机名
  • 将mysql的驱动包放入 /opt/cloudera/cm-5.10.0/share/cmf/lib/ 目录
  • 将 /opt/cloudera/ 用scp命令同步到所有节点
  •     scp -r /opt/cloudera/ root@node1:/opt/
  • scp -r /opt/cloudera/ root@node2:/opt/
  • 在主节点输入 mkdir /opt/cloudera/parcel-repo/ 新建文件夹,然后输入 chown cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo/赋予权限
  • 在所有从节点输入 mkdir /opt/cloudera/parcels/ 新建文件夹,然后输入 chown cloudera-scm:cloudera-scm /opt/cloudera/parcels/ 赋予权限
  • 将下载好的3个文件(1个json文件和2个parcel文件)上传到主节点的 /opt/cloudera/parcel-repo/ 目录
  • 进入主节点的 /opt/cloudera/cm-5.10.0/share/cmf/schema/ 目录,输入 ./scm_prepare_database.sh mysql cm -hmaster -uroot -p --scm-host master scm scm scm 初始化数据库
  • 看到successfully则表明初始化成功
  •  输入mysql -uroot -p,进入mysql,输入show databases;
  • 初始化成功

4.CM启动 & CDH安装

 

  • 主节点中进入 /opt/cloudera/cm-5.10.0/etc/init.d/ 目录,输入 ./cloudera-scm-server start 启动服务端,再输入 ./cloudera-scm-agent start 启动agent
  • 在所有从节点进入 /opt/cloudera/cm-5.10.0/etc/init.d/ 目录,输入 ./cloudera-scm-agent start 启动agent
  • 打开浏览器,访问主节点的7180端口,首次启动需要多等待一些时间才能访问到,因为cloudera manager正在初始化一些数据表(有些浏览器可能会无法访问,这里我用谷歌可以访问到这个页面)
  • 进入页面后,用户名和密码都是 admin,点击登陆,如下图
  • 进入下图,接受许可,点击继续
  • 选择60天试用版本,如下图,然后继续
  • 进入下图,点击继续
  • 点击选项卡中的“当前管理的主机”,将所有主机都勾选,然后点击继续,如下图
  • 进入下图,点击继续
  • 等待CM自动安装配置CDH,如下图
  • 安装完成后点击继续,检查主机正确性如下图:
  • 检验可能遇到以下问题
  • 在所有节点输入 sysctl vm.swappiness=10 按照建议,更改交换空间
  • 在所有节点输入 vi /etc/sysctl.conf ,在最后加入 vm.swappiness=10 ,使配置永久生效
  • 在所有节点执行 echo never > /sys/kernel/mm/transparent_hugepage/defrag ,然后点击完成
  • 集群设置,这里我选择自定义,选择自己需要的环境,其他需要依赖的会自动创建,如下图(这里选择了Impala,Oozie,Solr),然后点击继续
  • 服务配置一般按默认就可以,如需特殊调整,自行设置,然后点击继续,这里默认配置如下:
  • 接下来数据库设置,输入对应库的名称,用户名和密码,然后点击测试连接,当测试通过后,点击继续
  • 接下来是集群审核页面,这里默认就可以,点击继续
  • 等待安装,安装完成点击继续,如下图:
  • 安装完成如下图,点击完成
  • 集群运行状况如下所示:
  •  
  • 缺少mysql驱动包会出现:
  • 解决:find / -name lib   ,查找hive的lib目录,将驱动包放入
  •  
  • HDFS的dataNode节点小于副本个数,会出现
  • 解决:
  • 增加dataNode节点

最后

以上就是魁梧灯泡为你收集整理的CenOS7下CM&CDH大数据平台搭建的全部内容,希望文章能够帮你解决CenOS7下CM&CDH大数据平台搭建所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部