Spark简介 --大数据

327 阅读 0 评论 216 点赞

我是靠谱客的博主饱满白昼，这篇文章主要介绍Spark简介 --大数据，现在分享给大家，希望可以做个参考。

一、Spark是什么？

快速且通用的集群计算平台

二、Spark的特点：

快速：Spark扩充流行的Mapreduce计算模型，是基于内存的计算
通用：Spark的设计容纳了其它分布式系统拥有的功能，批处理、迭代式计算、交互查询和流处理等，降低了维护成本
高度开放：Spark提供Python、Java、Scala、SQL的API和丰富的内置库，Spark和其它的大数据工作整合得很好，包括hadoop、Kafka

三、Spark的组件

1、Spark Core

包含基本功能，包括任务调度、内存管理、容错机制。内部定义了RDDS（弹性分布式数据集），提供了很多APIs来创建和操作这些RDDs。
应用场景：为其它组件提供底层的服务。

2、Spark SQL

Spark处理结构化数据的库，像Hive SQL、MySQL一样。
应用场景：企业中用来做报表统计

3、Spark Streaming

实时数据流处理组件，类似Storm。Spark Streaming提供API来操作实时流数据。
应用场景：企业中用来从Kafka接收数据做实时统计

4、MLlib

一个包含通用机器学习功能的包，Machine learning lib。包含分类、聚类、回归等，还包括模型评估和数据导入。MLlib提供的上面这些方法，都支持集群上的横向扩展。

5、Graphx

处理图的库（例如社交网络图），并进行图的并行计算，像Spark Streaming,Spark SQL一样，它继承了RDD API。提供了各种图的操作，和常用的图算法，例如RangeRank算法
应用场景：图计算

6、Cluster Manager

集群管理，Spark自带一个集群管理是单独调度器。常见的集群管理包括：Hadoop YARN、Apache Mesos

四、紧密集成的优点

Spark底层优化，基于Spark底层的组件，也得到相应的优化。紧密集成，节省了各个组件使用时的部署，测试时间。向Spark增加新的组件时，其它组件可立即享用新组件的功能。

五、Spark和Hadoop比较

Hadoop应用场景：离线处理、对及时性要求不高
Spark应用场景：时效性要求高、机器学习等领域

转载于:https://www.cnblogs.com/qikeyishu/p/10841128.html

最后

以上就是饱满白昼最近收集整理的关于Spark简介 --大数据的全部内容，更多相关Spark简介内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：大数据
浏览次数：327 次浏览
发布日期：2023-10-15 22:51:28

求每个部门的平均工资

Spark RDD之核心原理知多少?

spark的前世今生spark的前世今生

经典数据库面试题--员工部门平均工资&作者出书问题&Topn分析

Spark简介 --大数据

【LeetCode】精选数据库70题（2022-10-14完结啦~）题目链接511 游戏玩法分析512 游戏玩法分析II534 游戏玩法分析III550 游戏玩法分析IV569 员工薪水中位数（困难…还没解决…窗口函数）570 至少有5名直接下属的经理571 给定数字的频率查询中位数574 当选者577 员工奖金578 查询回答率最高的问题579 查询员工的累计薪水580 统计各专业学生人数584 寻找用户推荐人585 2016年的投资586 订单最多的客户597 好友申请602 好友申请II6

Spark简介 --大数据

一、Spark是什么？

二、Spark的特点：

三、Spark的组件

1、Spark Core

2、Spark SQL

3、Spark Streaming

4、MLlib

5、Graphx

6、Cluster Manager

四、紧密集成的优点

五、Spark和Hadoop比较

最后

评论列表共有 0 条评论

发表评论取消回复

Spark简介 --大数据

一、Spark是什么？

二、Spark的特点：

三、Spark的组件

1、Spark Core

2、Spark SQL

3、Spark Streaming

4、MLlib

5、Graphx

6、Cluster Manager

四、紧密集成的优点

五、Spark和Hadoop比较

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复