为什么Spark处理数据的速度要比Hive快?
而Spark每次MapReduce操作是基于线程的,只在启动Executor时启动一次JVM,内存的Task操作是在线程复用的。如果操作复杂,很多的shufle操作,那么Hadoop的读写IO时间会大大增加。Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。公司在技术人员储备满足的情况下,同样的业务处理,优先选择spark来进行实现,这样对统计分析的执行效率会有很大的提升。