Spark2.x学习笔记:Spark SQL程序设计
1、RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。 RDD需要用户自己优化程序,对程序员要求较高。 从不同数据源读取数据相对困难。 合并多个数据源中的数据也较困难。2 DataFrame和Dataset(1)DataFrame由于RDD的局限性,Spark产生了DataFrame。DataFrame=RDD+Schema其中Schema是就是元数据,是语义描述信息。在Spark1.3之前,DataFrame被称为SchemaRDD。以行为单位构成...