Spark进阶（二）

62 阅读 0 评论 41 点赞

我是靠谱客的博主坚定麦片，这篇文章主要介绍Spark进阶（二），现在分享给大家，希望可以做个参考。

Spark Stream

将Stream数据分成小的时间片段，以类似batch批处理的方式来处理这一部分数据，兼容实时数据处理的逻辑和算法和兼容批量处理。

Spark MLlib

这里写图片描述

SparkSQL

1.MapReduce计算过程大量的磁盘落地消耗了大量的io，降低运行效率。此时shark应运而生，同期的还有Impala和Drill。

shark（在hive的基础上，把HQL翻译成Spark的RDD操作。实现基于内存的SQL查询）
运作：通过Hive的HQL解析，把HQL翻译成Spark的RDD操作，然后通过Hive的metadata获取数据库的表信息，shark获取HDFS上的数据和文件并放到Spark上运行。
修改了hive的内存管理，物理计划，执行三个模块：
shark使用Hive的API来实现query parsing和Logic Plan generation，最后的Physical Plan Generation阶段用Spark代替Hadoop的Map Reduce。

这里写图片描述

2.Shark对于hive的太多依赖（如采用hive的语法解析器、查询优化器等等），制约了Spark的统一栈管理的原则，故有了SparkSQL的出现。

SparkSQL汲取了Shark的优点，如内存列存储，hive的兼容性等
同时还兼容RDD、parquet文件、Json文件中获取数据
性能方面，除了内存列存储，还引进了Cost Model对查询进行动态评估

3.Spark和Impala在并发性还有一定的差距

GraphX

1.Pregel
google继mapReduce之后提出的又一计算模型，主要用于图的计算。

2.GraphX
有Table和Graph的两种图，但只需要一种物理存储，Table视图将图看成顶点属性和边属性的组合。

3.GraphX与Pregel的关系

这里写图片描述

Tachyon（HDFS（磁盘）tachyon（cache））

主从架构
分布式内存文件系统，用于缓存常用数据（HDFS是存储海量数据）

这里写图片描述

通过Zookeeper做HA，可以部署多台Standby Master

最后

以上就是坚定麦片最近收集整理的关于Spark进阶（二）的全部内容，更多相关Spark进阶（二）内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(41)

本文分类：Spark
浏览次数：62 次浏览
发布日期：2024-01-02 06:50:46
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ocf2_14_z_6_0.html

相关文章

Spark修炼之道（进阶篇）——Spark入门到精通：第七节 Spark运行原理

Spark修炼之道（进阶篇）——Spark入门到精通：第七节 Spark运行原理

从零到一spark进阶之路（一）

从零到一spark进阶之路（一）

Spark RDD-2-持久化&容错机制

Spark RDD-2-持久化&容错机制

spark-JDBCRDD

Spark进阶（二）

【网址收藏】Spark History Server配置及使用

【网址收藏】Spark History Server配置及使用

Spark-jdbcRDD-mysql

Spark-jdbcRDD-mysql

Spark Core 总结1-RDD的缓存、checkpoint

Spark Core 总结1-RDD的缓存、checkpoint

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部