spark读取hdfs路径下的数据_Spark学习之数据读取与保存总结(一)

77 阅读 0 评论 51 点赞

我是靠谱客的博主暴躁彩虹，最近开发中收集的这篇文章主要介绍spark读取hdfs路径下的数据_Spark学习之数据读取与保存总结(一)，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

一、动机

　　我们已经学了很多在 Spark 中对已分发的数据执行的操作。到目前为止，所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候，数据量可能大到无法放在一台机器中，这时就需要探索别的数据读取和保存的方法了。

　　Spark 及其生态系统提供了很多可选方案。本章会介绍以下三类常见的数据源。

　　• 文件格式与文件系统：对于存储在本地文件系统或分布式文件系统（比如 NFS、HDFS、Amazon S3 等）中的数据，Spark 可以访问很多种不同的文件格式，包括文本文件、JSON、SequenceFile，以及 protocol buffer。我们会展示几种常见格式的用法，以及 Spark 针对不同文件系统的配置和压缩选项。

　　• Spark SQL中的结构化数据源：后面会学习 Spark SQL 模块，它针对包括 JSON 和 Apache Hive 在内的结构化数据源，为我们提供了一套更加简洁高效的 API。此处会粗略地介绍一下如何使用 SparkSQL。

　　• 数据库与键值存储：概述 Spark 自带的库和一些第三方库，它们可以用来连接 Cassandra、HBase、Elasticsearch 以及 JDBC 源。