概述
摘要
多表连接运算是大数据处理中常见的运算。类似于数据库运算中常见的连接操作,多表连接运算的顺序会对计算资源和传输资源的消耗产生巨大影响。对多表连接顺序的优化是一个经典的优化问题,同时每次连接中表的投影结果大小也会影响节点间传输的数据体积,因此整体连接的顺序和每次连接的投影关系都会对连接效率产生显著的影响,而在传统的优化策略中,往往不会考虑到中间投影关系的取舍问题,以及基于中间投影关系而对最优连接策略产生的影响。针对这个问题,建立了一种连接关系索引,能够在构建优化连接策略中调整每次连接的投影关系,及时删除冗余列,减少对传输资源的消耗,同时基于投影关系的优化调整连接顺序的优化策略,从全局考量上尽可能地同时减少对传输资源和计算资源的消耗。该优化策略在Flink系统实现后进行了实验,结果表明有显著的优化效果。
关键词: 大数据; 连接优化; 投影优化
随着分布式技术的快速发展,人们对大数据的处理能力有了飞跃式的提高,众多优秀的大数据引擎也应运而生。大数据处理引擎有着许多与传统数据库相似的计算操作,同样也有许多近似的优化方法。同时大数据处理引擎也与传统数据库有很多质的区别,大数据处理引擎不再依赖于企业级服务器而是可以通过部署
最后
以上就是老迟到铃铛为你收集整理的面向多表数据连接投影和连接顺序的优化方法的全部内容,希望文章能够帮你解决面向多表数据连接投影和连接顺序的优化方法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复