第二章:《Spark之-----RDD编程》
一、Spark系统spark相当于是一个优化了Hadoop里面MapReduce的程序,它主要以scala编程为基础。在实际应用中,大数据处理主要包括以下几个类型: 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;(主要用Spark Core来实现) 基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;(主要用Spark SQL来实现) 基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。(主要用Spark Streaming和Structured Streamin