Spark进阶(二)
Spark Stream将Stream数据分成小的时间片段,以类似batch批处理的方式来处理这一部分数据,兼容实时数据处理的逻辑和算法和兼容批量处理。Spark MLlibSparkSQL1.MapReduce计算过程大量的磁盘落地消耗了大量的io,降低运行效率。此时shark应运而生,同期的还有Impala和Drill。shark(在hive的基础上,把HQL翻译成Spark的RDD操作。实现基