概述
⽐赛系统使⽤
1.
界⾯介绍
2.
主机登录
基础环境
1.
主机名修改
,
主机与
ip
地址映射关系
(ip
地址使⽤的是局域⽹
)
2.
ssh
免密登录
3.
时间同步
4.
关闭防⽕墙
5.
本地
repo
⽂件
6.
配置
JDK
集群搭建
Zookeeper
集群搭建
1.
下载⽂件
wget http://xxxxx
2.
解压
tar- -xzvf xxx.tar.gz
3.
配置系统环境变量
ZOOKEEPER_HOME
4.
配置
zoo.cfg
⽂件
5.
配置
myid
⽂件
注意
id
的号码
6.
分发⽂件
scp -r source_dir user@host:/dest_dir
7.
3
台主机分别启动
zk
服务
zkServe.sh start && zkServer.sh status
Hadoop
集群搭建
1.
下载⽂件
2.7.3
2.
解压⽂件
3.
配置系统环境变量
HADOOP_HOME
,
把
bin
和
sbin2
个⽬录都添加到系统环境变量
PATH
,不
要忘记⽣效和分发到另外
2
台服务器
4.
配置⽂件:参考地址
https://hadoop.apache.org/docs/r2.7.3/
1.
hadoop-env.sh
:
配置
JAVA_HOME
系统环境变量
2.
core-site.xml
:
Hadoop
的核⼼配置,
uri
,临时⽬录等
3.
hdfs-site.xml
:
hdfs
分布式⽂件系统的配置,副本因⼦、
namenode
、
datanode
的元数据路径等
4.
mapred-site.xml
:MapReduce
计算框架使⽤的资源调度框架
5.
yarn-site.xml
:yarn
资源调度框架相关的配置,
resourcemanager,nodemanager
6.
slaves
:DataNode,NodeManager
7.
master
:NameNode,ResourceManager
5.
分发⽂件到另外
2
台服务器
6.
在
master
上格式化
namenode
hdfs namenode -format
7.
启动
Hadoop
分布式集群
start-all.sh
8.
在
3
台服务器上分别执⾏
jps
查看启动的进程
Hbase
集群搭建
1.
下载软件
2.
解压
3.
配置系统环境变量
HBASE_HOME
4.
修改配置⽂件参考地址:
http://hbase.apache.org/book.html#distributed
1.
hbase-env.sh
:
配置系统环境变量
JAVA_HOME
,关闭
hbase
⾃带的
zk
集群
2.
hbase-site.xml
:配置
hbase
在
hdfs
上的存储位置,使⽤的
zk
集群,
zk
集群元数
据存放位置,开启分布式等
3.
regionservers
:RegionServer
服务器节点
5.
将
Hadoop
集群的
core-site.xml,hdfs-site.xml
⽂件软连到
Hbase
配置⽬录
ln -s
$HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf/
6.
将⽂件分发到另外
2
台服务器
7.
启动
Hbase
集群
start-hbase.sh
Hive
数仓集群
安装
MySQL
服务
1.
确认是否使⽤了本地源及是否有
mysql
源
2.
安装
yum install mysql-community- y
3.
启动服务
systemctl start mysqld
4.
查看初始密码
cat /var/log/mysqld.log | grep password
5.
使⽤初始密码登陆
mysql -u root -p
6.
修改全局密码安全策略
set global validate_password_policy=0;set global
validate_password_length=4;
7.
修改
root
⽤户密码
alter user 'root'@'localhost' identified by '123456';
8.
创建远程可登陆的
root
⽤户
create user 'root'@'%' with grant option;flush
privileges;
9.
创建数据库
安装
Hive
1.
下载软件
2.
解压
3.
配置系统环境变量
HIVE_HOME
4.
下载
jdbc
驱动到
$HIVE_HOME/lib
5.
将⽂件分发到指定的服务器;
6.
修改制定节点上的
jlin
cp $HIVE_HOME/lib/jlin-2.12.jar
$HADOOP_HOME/share/hadoop/yarn/lib
7.
配置⽂件
(
按照题⽬要求,将哪个节点作为
master)
1.
hive-site.xml
:
使⽤
jdbc
连接
MySQL
数据库,
jdbc
启动器、数据库⽤户名、密
码、
hive
数仓在
HDFS
上的位置
2.
hive-env.sh
:
配置
HADOOP_HOME
系统环境变量
8.
到指定的服务器上进⾏配置
(hive
的
slave
节点
)
1.
系统环境变量
HIVE_HOME
2.
hive-site.xml
:
配置数仓在
HDFS
上的位置、
thrift
地址等
(
可以多
client
同时登录
Hive)
3.
hive-env.sh
:
配置
HADOOP_HOME
系统环境变量
9.
在指定的
hive master
节点上启动
hive
的
metastore
服务
nohup hive --service
metastore > /dev/null 2>&1 &
10.
在指定的
hive slave
节点上启动
hive client
或直接执⾏创建数据库命令
hive -e
'create database hive_db;show databases;'
Spark
集群
安装
Scala
1.
下载软件
2.
解压
3.
配置系统环境变量
SCALA_HOME
3
个节点执⾏
scala -version
安装
Spark
1.
下载软件
2.
解压
3.
配置系统环境变量
SPARK_HOME
4.
配置⽂件,参考地址
https://spark.apache.org/docs/2.4.0/
1.
spark-env.sh
:
配
置
JAVA_HOME,SCALA_HOME,HADOOP_CONF_DIR,SPARK_MASTER_IP,SPARK_WORKER
_MEMORY
2.
slaves
中添加⼯作节点的主机名
5.
分发⽂件
6.
在指定的节点上启动
Spark
集群
$SPARK_HOME/sbin/start-all.sh
7.
在节点上分别执⾏
jps
查看进程信息
PYTHON
爬⾍
1.
使⽤
requests,bs4,lxml
等模块爬取论坛内所有的帖⼦;注意:
将爬取下的数据存⼊
指定的⽂件,字段与字段之间使⽤逗号分隔,注意写⼊⽂件中字段的顺序
2.
在
hive
中创建数据库和数据表,注意:使⽤的数据库和数据表中字段的名称
3.
将本地⽂件系统的⽂件导⼊到
hive
数据表中
load data local inpath 'path'
overwrite into table table_name
决赛
Hive
集群
安装及注意事项同选拔赛
安装
sqoop
1.
下载
2.
解压
3.
配置系统环境变量
SQOOP_HOME
,⽣效
(
指定的节点
)
4.
复制
jdbc
驱动到
$SQOOP_HOME/lib
5.
配置⽂件
1.
sqoop-env.sh
配
置
HADOOP_COMMON_HOME,HADOOP_MAPRED_HOME,HIVE_HOME,ZOOCFGDIR
系统环境
变量
2.
复制
$HIVE_HOME/conf/hive-site.xml
到
$SQOOP_HOME/conf/
6.
查看
sqoop
版本号
sqoop version
7.
通过
sqoop
查询
MySQL
数据库中的所有数据库
sqoop list-databases --connection
jdbc xxxx --username root --password
数据分析及可视化
数据分析
1.
数据集
共享单⻋数据集
⼈⼝数据集
样例数据:
197068,2017-10-1 0:00,2017-10-1 0:03,31214,17th & Corcoran
St NW,31229,New Hampshire Ave & T St NW,W21022,Member
数据集字段:
骑⾏时间(毫秒为单位):
duration (ms)
开始时间:
startdate
结束时间:
enddate
开始地点数:
startnum
开始地点:
startstation
结束地点数:
endnum
结束地点:
dndstation
单⻋⻋号:
bikenum
⽤户类型:
type
(
Member
会员
/ Casual
临时会员)
2.
上传数据
hdfs put xxxx
3.
建表导⼊数据
create table xxxx
4.
分析,常⽤的聚合函数及关键词
avg(),round(),limit group by order by
,以及对
⽇期的处理
数据挖掘
1.
主要是使⽤
Apriori
算法,计算⽀持度和置信度
1.
⽀持度:同时包含
A
和
B
的事务占所有事务的⽐例;
2.
置信度:包含
A
的事务中同时包含
B
的事务所占的⽐例;
可视化
1.
使⽤的是
echarts
,在本地
repo
中提供了
echarts
配置说明和样例图,注意:
在最终提
交的时候需要将
js
转成
json
提交,
JSON.stringify(option)
2.
柱状图、折线图、饼图
最后
以上就是忧伤芹菜为你收集整理的大体流程的全部内容,希望文章能够帮你解决大体流程所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复