大体流程

87 阅读 0 评论 58 点赞

我是靠谱客的博主忧伤芹菜，最近开发中收集的这篇文章主要介绍大体流程，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

⽐赛系统使⽤

1.

界⾯介绍

2.

主机登录

基础环境

1.

主机名修改 , 主机与 ip 地址映射关系 (ip 地址使⽤的是局域⽹ )

2.

ssh 免密登录

3.

时间同步

4.

关闭防⽕墙

5.

本地 repo ⽂件

6.

配置 JDK

集群搭建

Zookeeper 集群搭建

1.

下载⽂件 wget http://xxxxx

2.

解压 tar- -xzvf xxx.tar.gz

3.

配置系统环境变量 ZOOKEEPER_HOME

4.

配置

zoo.cfg ⽂件

5.

配置

myid ⽂件注意 id 的号码

6.

分发⽂件 scp -r source_dir user@host:/dest_dir

7.

3 台主机分别启动 zk 服务 zkServe.sh start && zkServer.sh status Hadoop 集群搭建

1.

下载⽂件 2.7.3

2.

解压⽂件

3.

配置系统环境变量 HADOOP_HOME

, 把 bin 和 sbin2 个⽬录都添加到系统环境变量 PATH ，不

要忘记⽣效和分发到另外 2 台服务器

4.

配置⽂件：参考地址 https://hadoop.apache.org/docs/r2.7.3/

1.

hadoop-env.sh

: 配置 JAVA_HOME 系统环境变量

2.

core-site.xml

： Hadoop 的核⼼配置， uri ，临时⽬录等

3.

hdfs-site.xml

： hdfs 分布式⽂件系统的配置，副本因⼦、 namenode 、

datanode 的元数据路径等

4.

mapred-site.xml :MapReduce 计算框架使⽤的资源调度框架

5.

yarn-site.xml :yarn 资源调度框架相关的配置，

resourcemanager,nodemanager

6.

slaves

:DataNode,NodeManager

7.

master

:NameNode,ResourceManager

5.

分发⽂件到另外 2 台服务器

6.

在 master 上格式化 namenode hdfs namenode -format

7.

启动 Hadoop 分布式集群 start-all.sh

8.

在 3 台服务器上分别执⾏ jps

查看启动的进程

Hbase 集群搭建

1.

下载软件

2.

解压

3.

配置系统环境变量 HBASE_HOME

4.

修改配置⽂件参考地址： http://hbase.apache.org/book.html#distributed

1.

hbase-env.sh : 配置系统环境变量 JAVA_HOME ，关闭 hbase ⾃带的 zk 集群

2.

hbase-site.xml ：配置 hbase 在 hdfs 上的存储位置，使⽤的 zk 集群， zk 集群元数

据存放位置，开启分布式等

3.

regionservers :RegionServer 服务器节点 5.

将 Hadoop 集群的 core-site.xml,hdfs-site.xml ⽂件软连到 Hbase 配置⽬录

ln -s

$HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf/

6.

将⽂件分发到另外 2 台服务器

7.

启动 Hbase 集群 start-hbase.sh

Hive 数仓集群

安装 MySQL 服务

1.

确认是否使⽤了本地源及是否有 mysql 源

2.

安装 yum install mysql-community- y

3.

启动服务 systemctl start mysqld

4.

查看初始密码 cat /var/log/mysqld.log | grep password

5.

使⽤初始密码登陆 mysql -u root -p

6.

修改全局密码安全策略 set global validate_password_policy=0;set global

validate_password_length=4;

7.

修改 root ⽤户密码 alter user 'root'@'localhost' identified by '123456';

8.

创建远程可登陆的 root ⽤户

create user 'root'@'%' with grant option;flush

privileges;

9.

创建数据库

安装 Hive

1.

下载软件

2.

解压

3.

配置系统环境变量

HIVE_HOME

4.

下载 jdbc 驱动到 $HIVE_HOME/lib

5.

将⽂件分发到指定的服务器；

6.

修改制定节点上的 jlin cp $HIVE_HOME/lib/jlin-2.12.jar

$HADOOP_HOME/share/hadoop/yarn/lib

7.

配置⽂件 ( 按照题⽬要求，将哪个节点作为 master)

1.

hive-site.xml : 使⽤ jdbc 连接 MySQL 数据库， jdbc 启动器、数据库⽤户名、密

码、 hive 数仓在 HDFS 上的位置

2.

hive-env.sh : 配置 HADOOP_HOME 系统环境变量 8.

到指定的服务器上进⾏配置 (hive 的 slave 节点 )

1.

系统环境变量 HIVE_HOME

2.

hive-site.xml : 配置数仓在 HDFS 上的位置、 thrift 地址等 ( 可以多 client 同时登录

Hive)

3.

hive-env.sh : 配置 HADOOP_HOME 系统环境变量

9.

在指定的 hive master 节点上启动 hive 的 metastore 服务 nohup hive --service

metastore > /dev/null 2>&1 &

10.

在指定的 hive slave 节点上启动 hive client 或直接执⾏创建数据库命令

hive -e

'create database hive_db;show databases;'

Spark 集群

安装 Scala

1.

下载软件

2.

解压

3.

配置系统环境变量

SCALA_HOME

3 个节点执⾏

scala -version

安装 Spark

1.

下载软件

2.

解压

3.

配置系统环境变量

SPARK_HOME

4.

配置⽂件，参考地址 https://spark.apache.org/docs/2.4.0/

1.

spark-env.sh : 配

置 JAVA_HOME,SCALA_HOME,HADOOP_CONF_DIR,SPARK_MASTER_IP,SPARK_WORKER

_MEMORY

2.

slaves 中添加⼯作节点的主机名

5.

分发⽂件

6.

在指定的节点上启动 Spark 集群 $SPARK_HOME/sbin/start-all.sh

7.

在节点上分别执⾏ jps 查看进程信息 PYTHON 爬⾍

1.

使⽤ requests,bs4,lxml 等模块爬取论坛内所有的帖⼦；注意： 将爬取下的数据存⼊

指定的⽂件，字段与字段之间使⽤逗号分隔，注意写⼊⽂件中字段的顺序

2.

在 hive 中创建数据库和数据表，注意：使⽤的数据库和数据表中字段的名称

3.

将本地⽂件系统的⽂件导⼊到 hive 数据表中 load data local inpath 'path'

overwrite into table table_name

决赛

Hive 集群

安装及注意事项同选拔赛

安装 sqoop

1.

下载

2.

解压

3.

配置系统环境变量 SQOOP_HOME ，⽣效 ( 指定的节点 )

4.

复制 jdbc 驱动到 $SQOOP_HOME/lib

5.

配置⽂件

1.

sqoop-env.sh 配

置 HADOOP_COMMON_HOME,HADOOP_MAPRED_HOME,HIVE_HOME,ZOOCFGDIR

系统环境

变量

2.

复制 $HIVE_HOME/conf/hive-site.xml 到 $SQOOP_HOME/conf/

6.

查看 sqoop 版本号 sqoop version

7.

通过 sqoop 查询 MySQL 数据库中的所有数据库 sqoop list-databases --connection

jdbc xxxx --username root --password 数据分析及可视化

数据分析

1. 数据集

共享单⻋数据集

⼈⼝数据集

样例数据：

197068,2017-10-1 0:00,2017-10-1 0:03,31214,17th & Corcoran

St NW,31229,New Hampshire Ave & T St NW,W21022,Member

数据集字段：

骑⾏时间（毫秒为单位）： duration (ms)

开始时间： startdate

结束时间： enddate

开始地点数： startnum

开始地点： startstation

结束地点数： endnum

结束地点： dndstation

单⻋⻋号： bikenum

⽤户类型： type （ Member 会员 / Casual 临时会员） 2.

上传数据 hdfs put xxxx

3.

建表导⼊数据 create table xxxx

4.

分析，常⽤的聚合函数及关键词

avg(),round(),limit group by order by

，以及对

⽇期的处理

数据挖掘

1. 主要是使⽤

Apriori

算法，计算⽀持度和置信度

1.

⽀持度：同时包含 A 和 B 的事务占所有事务的⽐例；

2.

置信度：包含 A 的事务中同时包含 B 的事务所占的⽐例；

可视化

1.

使⽤的是 echarts ，在本地 repo 中提供了 echarts 配置说明和样例图，注意： 在最终提

交的时候需要将 js 转成 json 提交， JSON.stringify(option)

2.

柱状图、折线图、饼图

最后

以上就是忧伤芹菜为你收集整理的大体流程的全部内容，希望文章能够帮你解决大体流程所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(58)

本文分类：Other
浏览次数：87 次浏览
发布日期：2024-01-03 15:46:09
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ocf3_13__7__10_w.html

相关文章

2022-2023赛季高职大数据竞赛-赛规任务剖析

2022-2023赛季高职大数据竞赛-赛规任务剖析

大数据_08 【新增节点与删除节点】

大数据_08 【新增节点与删除节点】

计算机大赛可以跨学校组队吗,大学生创新创业大赛可以跨校组队吗

计算机大赛可以跨学校组队吗,大学生创新创业大赛可以跨校组队吗

大数据技术与应用-广东省赛总结

大数据技术与应用-广东省赛总结

大体流程

大数据竞赛大数据竞赛

acm比赛经验（转）

ACM解题经验

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部