spark-10.sparkSQL_1_sparkSQL概述与数据转换1.sparkSQL概述2.数据转换
1.sparkSQL概述sparkSQL是spark的一个模块,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC\ODBC服务器功能。sparkSQL里面有两个新的数据抽象:DataFrame和DataSet。DataFrame:SQL操作主要涉及到表的操作,表是数据和schema组成的,所以可以认为DataFrame就是一张表 = RDD+Schema。DataFrame的执行效率比RDD要高,主要表现在定制化的内存管理和优化的执行引擎。DataFrame是