我是靠谱客的博主 高高唇膏,这篇文章主要介绍大数据集群环境搭建,现在分享给大家,希望可以做个参考。

文章目录

        • 本文要点
        • 内容大纲
        • 一、大数据集群环境搭建
          • 1.1、分布式、集群概念初识
          • 1.2、集群环境搭建
            • 1.2.1、虚拟机克隆
            • 1.2.2、修改IP、主机名
            • 1.2.3、主机名和IP映射配置
            • 1.2.4、防火墙关闭
            • 1.2.5、集群机器间免密登录
            • 1.2.6、跨机器==远程copy==文件
            • 1.2.7、集群的时间同步问题
        • 二、Centos软件安装
          • 2.1、rpm包管理器
          • 2.2、yum包管理器
          • 2.3、JDK的安装
        • 三、了解shell编程
          • 3.1、shell介绍
          • 3.2、shell编程开发

本文要点

复制代码
1
2
3
1、服务器集群环境搭建 2、了解shell编程

内容大纲

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#linux集群环境搭建 集群、分布式---->多台机器 虚拟机克隆 服务器基础环境准备 1、防火墙关闭 2、主机名hostname修改 3、hosts主机名 IP映射 4、ssh免密登录 5、扩展:跳板机、堡垒机 6、集群时间同步 7、scp 跨集群复制文件 #Linux软件安装 rpm包 yum安装软件 #软件安装 JDK # shell编程

一、大数据集群环境搭建

1.1、分布式、集群概念初识

分布式:多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。

集群:多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。

  • 分布式、集群

    • 共同点:多台机器。 相对的概念叫做单机系统。

    • 注意:在口语中经常混淆分布式和集群的概念的。都是汲取两者的共同点。

      复制代码
      1
      2
      3
      4
      比如:搭建一个分布式hadoop集群。 背后意思:不要搭建单机版本的 搭建多台机器版本的。
  • 集群架构

    • 主从架构

      复制代码
      1
      2
      3
      4
      5
      6
      主角色:master leader 大哥 从角色:slave follower 小弟 主从角色各司其职,需要共同配合对外提供服务。 常见的是一主多从 也就是一个大哥带着一群小弟共同干活。
    • 主备架构

      复制代码
      1
      2
      3
      4
      5
      6
      主角色:active 备角色:standby 主备架构主要是解决单点故障问题的 保证业务的持续可用。 常见的是一主一备 也可以一主多备。
1.2、集群环境搭建
1.2.1、虚拟机克隆
  • 前提:是虚拟机处于关闭状态。

  • 分类:链接克隆 、完整克隆

    复制代码
    1
    2
    3
    链接克隆:表层是互相独立 底层存储是交织在一起; 完整克隆:完全互相独立的两台虚拟机
  • 修改克隆机器属性。

    复制代码
    1
    2
    3
    完整克隆意味着两台机器一模一样。在局域网网络中,有些属性是决定不能一样的。 比如:IP、MAC、主机名hostname
  • 3台虚拟机硬件分配 16G

    复制代码
    1
    2
    3
    4
    node1 2*2cpu 4G内存 node2 1*1cpu 2G内存 node3 1*1cpu 2G内存
1.2.2、修改IP、主机名
  • 命令修改 临时生效 重启无效
  • 修改底层配置文件 永久生效 重启才能生效。
复制代码
1
2
3
4
vim /etc/hostname node2.itcast.cn
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#修改IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE="Ethernet" #网卡类型 以太网 PROXY_METHOD="none" BROWSER_ONLY="no" BOOTPROTO="none" #ip等信息是如何决定的? dhcp动态分配、 static|node 手动静态分配 DEFROUTE="yes" IPV4_FAILURE_FATAL="no" IPV6INIT="yes" IPV6_AUTOCONF="yes" IPV6_DEFROUTE="yes" IPV6_FAILURE_FATAL="no" IPV6_ADDR_GEN_MODE="stable-privacy" NAME="ens33" #网卡名称 UUID="62982d98-441d-43ef-8e56-73aa36ab6f07" DEVICE="ens33" ONBOOT="yes" #是否开机启动网卡服务 IPADDR="192.168.88.152" #IP地址 PREFIX="24" #子网掩码 等效: NETMASK=255.255.255.0 GATEWAY="192.168.88.1" #网关服务 DNS1="192.168.88.1" #网关DNS解析 DOMAIN="114.114.114.114" #公网DNS解析 114.114.114.114 谷歌:8.8.8.8 阿里百度DNS IPV6_PRIVACY="no #修改主机名hostname node2.itcast.cn
  • 重启linxu系统 reboot
1.2.3、主机名和IP映射配置
  • 背景

    复制代码
    1
    2
    3
    4
    在网络中,很少直接通过IP访问机器,原因难记。 通常使用主机名或者域名访问。 此时就会涉及到主机名域名和IP之间的解析
  • 实现

    • 本地hosts文件 进行本地查找解析

      复制代码
      1
      2
      localhost 127.0.0.1
    • 寻找DNS服务器 域名解析服务

  • 配置本地hosts文件实现

    • linux上

      复制代码
      1
      2
      3
      4
      5
      6
      7
      8
      9
      vim /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.88.151 node1.itcast.cn node1 192.168.88.152 node2.itcast.cn node2 192.168.88.153 node3.itcast.cn node3
    • windows上

      复制代码
      1
      2
      3
      4
      5
      6
      C:WindowsSystem32driversetchosts 192.168.88.151 node1.itcast.cn node1 192.168.88.152 node2.itcast.cn node2 192.168.88.153 node3.itcast.cn node3
1.2.4、防火墙关闭
  • firewalld

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    #查看防火墙状态 systemctl status firewalld #关闭防火墙 systemctl stop firewalld #关闭防火墙开机自启动 systemctl disable firewalld #centos服务开启关闭命令 centos6:(某些可以在centos7下使用) service 服务名 start|stop|status|restart chkconfig on|off 服务名 centos7: systemctl start|stop|status|restart 服务名 systemctl disable|enable 服务名 #开机自启动 关闭自启
  • selinux

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    vim /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead of enforcing. # disabled - No SELinux policy is loaded. SELINUX=disabled
    • 需要重启生效
1.2.5、集群机器间免密登录
  • 背景

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    #在进行集群操作的时候 需要从一台机器ssh登录到其他机器进行操作 默认情况下需要密码 [root@node1 ~]# ssh node2 The authenticity of host 'node2 (192.168.88.152)' can't be established. ECDSA key fingerprint is SHA256:kTth0zkiMakFp9O0B8v0GHnpQy86+YfpHqAX4Cxb/hk. ECDSA key fingerprint is MD5:b2:74:4f:b3:a0:b4:7e:a1:3d:50:c4:55:8b:3b:78:cb. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added 'node2,192.168.88.152' (ECDSA) to the list of known hosts. root@node2's password: Last login: Sun Jan 29 17:00:02 2023 from 192.168.88.8 [root@node2 ~]# exit logout Connection to node2 closed.
  • 需求:能否实现免密ssh登录。

    • 技术:SSH方式2:免密登录功能。

    ssh原理

  • 实现

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    #实现node1----->node2 #step1 在node1生成公钥私钥 ssh-keygen 一顿回车 在当前用户的home下生成公钥私钥 隐藏文件 [root@node1 .ssh]# pwd /root/.ssh [root@node1 .ssh]# ll total 12 -rw------- 1 root root 1679 Jan 29 17:12 id_rsa -rw-r--r-- 1 root root 402 Jan 29 17:12 id_rsa.pub -rw-r--r-- 1 root root 182 Jan 29 17:05 known_hosts #step2 copy公钥给node2 ssh-copy-id node2 注意第一次需要密码 #step3 [root@node1 .ssh]# ssh node2 Last login: Sun Jan 29 17:06:00 2023 from node1.itcast.cn [root@node2 ~]# exit logout Connection to node2 closed.
  • 要求

    复制代码
    1
    2
    3
    4
    #至少打通node1---->node1 node2 node3 这三个免密登录 #至于所有机器之间要不要互相免密登录 看你心情
  • 扩展:跳板机、堡垒机

    复制代码
    1
    2
    作为局域网连接外网的机子,同时也承载着全部的防护压力像堡垒一样。

在这里插入图片描述

1.2.6、跨机器远程copy文件
  • 背景:linux上copy文件 cp

  • 命令:scp 基于ssh协议跨网络cp动作

  • 注意事项,没有配置ssh免密登录也可以进行scp远程复制 只不过在复制的时候需要输入密码。

  • 例子

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    #本地copy其他机器 scp test.txt root@node2:/root/ scp -r linux02/ root@node2:$PWD #copy文件夹 -r参数 $PWD copy至和本机相同当前路径 #为什么不需要输入密码 因为配置了机器之间的免密登录 如果没有配置 scp的时候就需要输入密码 #copy其他机器文件到本地 scp root@node2:/root/test2.txt ./
1.2.7、集群的时间同步问题
  • 背景:分布式软件主从角色之间通常基于心跳时间差来判断角色工作是否正常

  • 国家授时中心 北京时间

    • 授时服务器 国家级 企业级 院校级
  • linux

    • ntp 网络时间协议 实现基于网络授时同步时间。

    • date

      复制代码
      1
      2
      3
      4
      5
      6
      查看当前的系统时间 也可以手动指定设置时间 不精准 [root@node1 ~]# date Sun Jan 29 18:28:44 CST 2023
    • ntpdate

      复制代码
      1
      2
      3
      4
      5
      6
      7
      8
      9
      #ntpdate 授时服务器 ntpdate ntp5.aliyun.com [root@node1 ~]# ntpdate ntp5.aliyun.com 29 Jan 18:29:09 ntpdate[2016]: adjust time server 203.107.6.88 offset -0.030927 sec #企业中运维往往不喜欢ntpdate 原因是这个命令同步时间是立即的。不是平滑过渡的。
    • ntp软件

      复制代码
      1
      2
      通过配置 平滑的和授时服务器进行时间的同步(运维)

二、Centos软件安装

2.1、rpm包管理器
  • 指的是RH系列的包管理器(Red-Hat Package Manager),也是RH安装的软件包后缀名。当下已经扩大了行业标准。

  • RPM指的是使用rpm命令进行软件的查看、安装、卸载。

  • 弊端

    • 提前下载rpm包,手动安装
    • 自己解决包之间的依赖
  • 命令

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    #查询 [root@node1 ~]# rpm -qa | grep ssh openssh-clients-7.4p1-21.el7.x86_64 libssh2-1.8.0-4.el7.x86_64 openssh-server-7.4p1-21.el7.x86_64 openssh-7.4p1-21.el7.x86_64 [root@node1 ~]# rpm -qi openssh-server-7.4p1-21.el7.x86_64 Name : openssh-server Version : 7.4p1 Release : 21.el7 Architecture: x86_64 Install Date: Sat 28 Jan 2023 10:24:55 PM CST Group : System Environment/Daemons Size : 993586 License : BSD Signature : RSA/SHA256, Fri 23 Aug 2019 05:37:29 AM CST, Key ID 24c6a8a7f4a80eb5 Source RPM : openssh-7.4p1-21.el7.src.rpm Build Date : Fri 09 Aug 2019 09:40:49 AM CST Build Host : x86-01.bsys.centos.org Relocations : (not relocatable) Packager : CentOS BuildSystem <http://bugs.centos.org> Vendor : CentOS URL : http://www.openssh.com/portable.html Summary : An open source SSH server daemon Description : OpenSSH is a free version of SSH (Secure SHell), a program for logging into and executing commands on a remote machine. This package contains the secure shell daemon (sshd). The sshd daemon allows SSH clients to securely connect to your SSH server. #rpm安装软件 rpm -ivh rpm 包的全路径 #rpm卸载软件 注意 通常采用忽略依赖的方式进行卸载 rpm -e --nodeps 软件包名称 因为在卸载的时候 默认会将软件连同其依赖一起卸载 为了避免影响其他软件的正常使用 通常建议使用--nodeps参数忽略依赖的存在 只卸载程序自己
  • 我的软件安装目录规范

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    /export/server #软件安装目录 /export/software #安装包的目录 /export/data #软件运行数据保存的目录 /export/logs #软件运行日志 mkdir -p /export/server mkdir -p /export/software mkdir -p /export/data mkdir -p /export/logs
2.2、yum包管理器
  • 介绍

    复制代码
    1
    2
    Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。
  • 特点

    • 自动下载rpm包 进行安装 前提是联网 不联网就凉凉
    • 解决包之间的依赖关系
  • 原理

    复制代码
    1
    2
    3
    4
    5
    6
    #yum之所以强大原因在于有yum源。里面有很多rpm包和包之间的依赖。 yum源分为网络yum源和本地yum源。 #其中网络yum源在centos默认集成了镜像地址 只要联网就可以自动寻找到可用的yum源。 前提联网 #也可以自己搭建本地yum源。实现从本地下载安装。
  • 命令

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    #列出当前机器可用的yum源信息 yum repolist all #清楚yum源缓存信息 yum clean all #查找软件 rpm list | grep 软件包名称 #yum安装软件 -y表示自动确认 否则在安装的时候需要手动输入y确认下载安装 yum install -y xx软件名 yum install -y mysql-* #yum卸载软件 yum -y remove 要卸载的软件包名
2.3、JDK的安装
  • 简单:解压即可使用 但是通常配置环境变量,以便于在各个路径下之间使用java。

  • 要求:JDK1.8版本

  • 步骤

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    #上传安装包到/export/server下 jdk-8u65-linux-x64.tar.gz #解压到当前目录 tar zxvf jdk-8u65-linux-x64.tar.gz #删除红色安装包(可选) rm -rf jdk-8u65-linux-x64.tar.gz #配置环境变量 vim /etc/profile #G + o export JAVA_HOME=/export/server/jdk1.8.0_65 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar #重新价值环境变量文件 让配置生效 source /etc/profile [root@node1 ~]# java -version java version "1.8.0_65" Java(TM) SE Runtime Environment (build 1.8.0_65-b17) Java HotSpot(TM) 64-Bit Server VM (build 25.65-b01, mixed mode)
  • 将node1的JDK安装包scp给其他机器

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    #scp安装包 cd /export/server/ scp -r jdk1.8.0_65/ root@node2:$PWD #scp环境变量文件 scp /etc/profile node2:/etc/ #别忘了 其他机器source哦 source /etc/profile

三、了解shell编程

3.1、shell介绍
  • 指的是一种程序,往往是使用C语言开发,功能是访问操作系统内核获取操作系统信息。
  • 指的是shell脚本语言,使用什么样的命令语法格式去控制shell程序访问内核。
  • 通常情况下,所说shell编程指的shell脚本编程,学习shell语法规则
3.2、shell编程开发
  • 在哪里编写?

    复制代码
    1
    2
    只要能进行文本编辑的地方都可以写 linux上常使用vim编辑器开发
  • 需要编译?

    复制代码
    1
    2
    不需要编译
  • 如何执行?

    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    需要语法解释器 不需要安装 Linux系统中集成了很多个同种类的shell解释器 [root@node1 linux02]# cat /etc/shells /bin/sh /bin/bash /usr/bin/sh /usr/bin/bash /bin/tcsh /bin/csh
  • 默认shell解释器 bash shell = shell

    复制代码
    1
    2
    3
    4
    因为很多linux发行版都以bash作为默认的解释器 所以说市面上大多数shell编程都是基于bash开展的 bash shell免费的。
  • shell的快速入门

    • shell脚本文件 后缀名没有要求 通常以.sh结尾

    • 格式

      复制代码
      1
      2
      3
      4
      5
      #!/bin/bash echo 'hello shell' #第一行 指定解释器的路径
    • 给脚本授予执行权限

      复制代码
      1
      2
      chmod a+x hello.sh
    • 执行shell脚本

      • 绝对路径指定shell脚本

        复制代码
        1
        2
        3
        [root@node1 linux02]# /root/linux02/hello.sh hello shell
      • 相对路径

        复制代码
        1
        2
        3
        4
        5
        [root@node1 linux02]# hello.sh #默认去系统环境变量中寻找 错误 -bash: hello.sh: command not found [root@node1 linux02]# ./hello.sh #从当前目录下找 hello shell
      • 把shell脚本交给其他shell程序执行 比如sh

        复制代码
        1
        2
        3
        [root@node1 linux02]# sh hello.sh hello shell
    • 探讨:后缀名 解释器 执行权限是必须的吗? 不是必须的

      复制代码
      1
      2
      3
      4
      5
      6
      7
      8
      9
      [root@node1 linux02]# vim bye.hs echo "bye bye" [root@node1 linux02]# sh bye.hs bye bye #文件不是sh结尾 没有授权 没有指定bash解释器路径 但是却可以执行 #此时这个文件是作为参数传递给sh来执行的 此时解释器是sh 只要保证文件中语法正确就可以执行
  • shell 命令、shell 脚本

    • 都是属于shell的东西
    • shell命令倾向于交互式使用,适合逻辑简单场景
    • shell脚本适合复杂逻辑 理解结合函数、条件判断、流程控制 写出更加丰富的程序。
    • shell命令和shell脚本之间可以互相换行。
    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    #编写shell脚本 执行脚本 [root@node1 linux02]# cat hello.sh #!/bin/bash echo 'hello shell' [root@node1 linux02]# sh hello.sh hello shell #以shell命令执行 [root@node1 linux02]# echo 'hello shell' hello shell
  • shell变量

    • 语法格式

      复制代码
      1
      2
      3
      4
      5
      6
      变量=值 #注意等号两边不能有空格 [root@node1 linux02]# name = allen -bash: name: command not found [root@node1 linux02]# name=allen
    • 变量的使用

      复制代码
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      [root@node1 linux02]# name=allen [root@node1 linux02]# echo name name [root@node1 linux02]# echo $name allen [root@node1 linux02]# echo ${name} allen [root@node1 linux02]# echo $namewoon [root@node1 linux02]# echo ${name}woon allenwoon #建议提取变量的时候 使用{}标识变量的边界范围 #unset 删除变量 #readonly 只读变量 不能修改 相当于java中final修饰的 [root@node1 linux02]# name=allen [root@node1 linux02]# echo ${name} allen [root@node1 linux02]# name=james [root@node1 linux02]# echo ${name} james [root@node1 linux02]# readonly name=allen [root@node1 linux02]# echo ${name} allen [root@node1 linux02]# name=james -bash: name: readonly variable [root@node1 linux02]# unset name -bash: unset: name: cannot unset: readonly variable #只读变量不能够进行删除 只会随着生命周期结束而结束 #对应shell命令来说 生命周期就是窗口关闭 #对应shell脚本来说 生命周期就是shell执行结束
  • shell字符串使用

    • 定义字符串

      • 可以使用单引号 可以使用双引号 可以不使用引号
      • 推荐使用双引号 实现变量的提取
      复制代码
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      [root@node1 linux02]# name=allen [root@node1 linux02]# echo $name allen [root@node1 linux02]# name1='allen1' [root@node1 linux02]# echo $name1 allen1 [root@node1 linux02]# name2="allen2" [root@node1 linux02]# echo $name2 allen2 [root@node1 linux02]# echo my name is ${name} my name is allen [root@node1 linux02]# echo 'my name is ${name}' my name is ${name} [root@node1 linux02]# echo "my name is ${name}" my name is allen
  • 反引号

    • `
    • 英文状态下输入ESC下面
    • 功能:表示执行反引号的命令
    复制代码
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    #需求:把date命令执行的结果赋值给nowtime变量 [root@node1 linux02]# date Sun Jan 29 20:14:15 CST 2023 [root@node1 linux02]# nowtime=date #如果没有反引号 理解为字符串 [root@node1 linux02]# echo $nowtime date [root@node1 linux02]# nowtime=`date` #使用反引号 理解为执行命令 把命令的结果进行赋值 [root@node1 linux02]# echo $nowtime Sun Jan 29 20:14:49 CST 2023

最后

以上就是高高唇膏最近收集整理的关于大数据集群环境搭建的全部内容,更多相关大数据集群环境搭建内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(78)

评论列表共有 0 条评论

立即
投稿
返回
顶部