我是靠谱客的博主 昏睡金毛,最近开发中收集的这篇文章主要介绍大数据技术原理与应用学习笔记(二)本系列历史文章Hadoop,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

大数据技术原理与应用学习笔记(二)

  • 本系列历史文章
  • Hadoop
    • Hadoop简介
      • Hadoop的特性
      • Hadoop在企业中的应用架构
      • Hadoop的版本
    • Hadoop项目结构
    • Linux和Hadoop安装
    • Hadoop集群部署

本系列历史文章

大数据技术原理与应用学习笔记(一)

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。

Hadoop简介

Hadoop两大核心:分布式文件系统(HDFS)、分布式并行编程框架(MapReduce)

Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下特性:
高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux操作系统上
支持多种编程语言

Hadoop在企业中的应用架构

Hadoop架构

Hadoop的版本

此处注意:在Hadoop1.0中,只有MapReduce和HDFS两个框架,在Hadoop2.0中,将资源调度管理部分独立为Yarn框架来进行资源的管理调度。

Hadoop项目结构

经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经包含了多个子项目,除了核心的HDFS与MapReduce以外,还包括如下图所示的多个项目,由他们协同合作,完成相应功能。
Hadoop生态系统

  1. HDFS: 分布式存储文件系统,Hadoop两大核心之一。
  2. HBase: 分布式列式数据库。
  3. MapReduce: 分布式并行编程框架,是针对谷歌MapReduce的开源实现。
  4. Hive: 数据仓库(数据分析用)。
  5. Pig: 基于Hadoop的大规模数据分析平台。
  6. Mahout: 支持数据挖掘的开源项目。
  7. Zookeeper: 提供分布式协调一致性服务。
  8. Flume: 分布式海量日志采集、聚合和传输的系统。
  9. Sqoop: 关系型数据库和Hadoop之间进行数据迁移的工具。
  10. Ambari: 是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理。

Linux和Hadoop安装

关于Linux安装的部分可参考厦大数据库博客:Linux系统安装
关于Hadoop安装的部分可参考厦大数据库博客:Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)

Hadoop集群部署

硬件配置分为NameNode、SecondNameNode和DataNode,MapReduce的两大组件为JobTracker和TaskTracker,这部分还会在后面的学习笔记中在详细提到,此处作为了解。

最后

以上就是昏睡金毛为你收集整理的大数据技术原理与应用学习笔记(二)本系列历史文章Hadoop的全部内容,希望文章能够帮你解决大数据技术原理与应用学习笔记(二)本系列历史文章Hadoop所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部