spark的使用Spark简介
Spark简介 spark是通过scala进行编写的,是一个快速,通用的大规模搜索引擎,与hadoop的MR类似,但是spark减少了shuffle过程来达到快速处理的效果从而可以实现数据的实时流处理,Spark Streaming将流式计算分解成一系列短小的批处理计算,并且提供高可靠和吞吐量服务。值得说明的是,无论是Spark SQL、Spark Streaming、GraphX还是MLlib,都可以使用Spark核心API处理问题,它们的方法几乎是通用的,处理的数据也可以共享,不仅减少了学习