概述
大数据处理架构Hadoop
2.1 Hadoop简介
- Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
- Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
- Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。
- Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。
2.2 Hadoop特性
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 成本低
- 跨平台
- 支持多种编程语言
2.3 Hadoop生态系统
Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统。
组件 | 功能 |
---|---|
HDFS | 分布式文件系统 |
MapReduce | 分布式并行编程模型 |
YARN | 资源管理调度器 |
Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
Hive | Hadoop的数据仓库 |
HBase | Hadoop上的非关系型分布式数据库 |
Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
Sqoop | 用于在Hadoop与传统数据库直接进行数据传递 |
Oozie | Hadoop上的工作流管理系统 |
ZooKeeper | 提供分布式协调一致性服务 |
Storm | 流计算框架 |
Flume | 一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统 |
Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
Kafka | 一个高吞吐量的分布式订阅消息系统,可以处理消费者规模的网站中所有的动作流数据 |
Spark | 类似Hadoop MapReduce的通用并行框架 |
2.4 Hadoop安装
(1)Hadoop安装方式
- 单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
- 伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为DataNode,同时,读取的是HDFS 中的文件。
- 分布式模式:使用多个节点构成集群环境来运行Hadoop。
(2) Hadoop安装流程
Hadoop基本安装配置主要包括以下几个步骤:
- 创建Hadoop用户
- SSH实现面密登录
- 安装Java环境
- 安装Hadoop软件
- 伪分布式分布式安装配置
(3) Hadoop安装与部署
参考文章《Centos7搭建Hadoop集群环境》
(4) 三种Shell的区别
- hadoop fs
- hadoop dfs
- hdfs dfs
- hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统。
- hadoop dfs只能适用于HDFS文件系统。
- hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统。
(5) Hadoop集群节点类型
Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的
MapReduce。Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡,MapReduce主要负责IO密集及CPU密集型工作:①从磁盘读取数据,即IO密集工作。②计算数据,即CPU密集工作。
一个基本的Hadoop集群中的节点主要有:
- NameNode:负责协调集群中的数据存储
- DataNode:存储被拆分的数据块
- JobTracker:协调数据计算任务
- TaskTracker:负责执行由JobTracker指派的任务
- SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
最后
以上就是朴素小松鼠为你收集整理的大数据技术原理与应用笔记(2)——大数据处理架构Hadoop大数据处理架构Hadoop的全部内容,希望文章能够帮你解决大数据技术原理与应用笔记(2)——大数据处理架构Hadoop大数据处理架构Hadoop所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复