我是靠谱客的博主 自由秋天,最近开发中收集的这篇文章主要介绍与Shopee实时计算负责人聊聊湖仓一体,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

导读:2022年7月22-23日,第8届GIAC全球互联网架构大会将于深圳举行。GIAC是面向架构师、技术负责人及高端技术从业人员的年度技术架构大会,是中国地区规模最大的技术会议之一。今年GIAC邀请到了众多布道师、明星讲师以及105位来自阿里、腾讯、字节跳动、美团、微博、商汤、华为、快手、哔哩哔哩、声网、微软、Shopee、亚马逊等公司专家出席。

在大会前夕,高可用架构采访了本届 GIAC湖仓一体专场讲师、来自新加坡电商平台Shopee的邓林,就目前大家广泛关注的湖仓一体技术以及大数据相关的问题进行了访谈。

邓启明:邓林老师您好,很高兴能采访到您,请简单介绍一下自己。

邓林:我 2012 参加工作,一直在进行大数据平台和引擎相关的开发工作。曾经参与离线任务调度系统和数据 Ingestion 系统的建设,目前主要从事基于 Flink 的实时计算平台的建设工作。在这个过程中,见证了 Hadoop 三件套在企业数据平台领域的强势崛起,经历了流式数据处理从小范围试用到企业数据处理的核心范式的风雨历程。对于流批一体融合,并结合湖仓一体技术对企业数据处理的再一次革新有非常大兴趣。

邓启明:能否分别简单介绍一下数据湖和数据仓库,以及它们对应的技术栈?

邓林:相对于传统的数据仓库来说,数据湖所涉及到的数据边界、数据内容都有了很大的扩展。它的出现使得数据的时效性、内容的多样性和业务场景的丰富度都有了天翻地覆的变化。数据仓库技术和数据湖技术都是为了企业的数据得到良好的管理和使用,所以在这个根本需求上,数据湖技术是对数据仓库技术极大的补充。

传统的数据仓库技术栈面向 SQL 的结构化数据,所以它的实现更多是以传统的数据库为核心,或者是以 Hive 为核心来构建。

而数据湖的技术栈则在传统数仓技术栈的基础上,扩展了流式处理、ACID 的支持和时间语义等,它使得数据处理与业务本身更加贴近。

邓启明:湖仓一体是数据湖和数据仓库的整合方案吗?请简单介绍一下湖仓一体要解决的行业痛点以及可能的技术方案。

邓林:湖仓一体技术不应该简单地理解成数据湖和数据仓库的简单整合,它是两者在数据管理和应用上的深度融合。

传统的数据仓库面向的数据时效性不足、储存浪费大、不具备 ACID 语义等所导致的数据表现能力离业务需求远的问题,都可以在数据湖技术上得到解决。而传统的数仓技术在面对高度结构化、相对静态的数据集的处理上,在传统的数据管理上的能力,我们都可以很好地复用,并推广到数据湖。

基于数据湖技术,结合消息流和批数据集来构建流批统一的数据仓库,同时满足不同时效性的数据处理需求。我们也可以使用数据湖的增量处理语义来减少传统数据仓库的存储开销。

邓启明:大数据技术发展了十多年,能否结合您在 Shopee 的经验,谈一谈大数据给行业带来了哪些价值和变化?

邓林:首先,它让企业数据处理的时效性得到了极大的发展,它让业务同事能够更加及时地通过数据了解业务。例如报表,在流式处理相关技术没有出现之前,数据的时效性最好在小时级别,当数据量太大时,甚至连小时级别也不能满足。在流式处理、数据湖这些技术出现后,数据的时效性可以做到秒级。

数据内容的丰富度得到了极大的提高,它让业务同学能够通过数据获得更加详细的业务信息。例如我们基于数据 CDC 技术,能够实时获取业务数据的全部变化过程,无论在风控还是运营分析,都能够得到非常详细的数据。

数据的处理使用方式也变得更加多样化。传统基于数据库的数仓,更多是基于报表,而大数据技术的出现,使得数据可以应用到机器学习和复杂事件处理等领域。

邓启明:大数据领域的技术发展很快,包含了 Hadoop、Storm、Spark、ELK、数据仓库、Flink、数据湖、湖仓一体等等各种技术栈,不同规模的公司应该怎么样做好技术选型?又该如何保障技术更迭?

邓林:我认为一个公司的技术选型可以参考公司的需求与业务规模进行。

从需求场景出发, Hadoop、Hive、Spark 更多应用在离线批处理的场景。当公司规模较小,每天原始数据在 GB 级、数据应用形态比较简单时,可以考虑只选择 Hadoop + Hive 就能满足常规的批处理需求。当每天原始数据量达到 TB 级及以上时,需要使用 Spark 才能达到更高性能的数据计算。

在实时场景下,Kafka 与 Flink 结合可以满足毫秒级低延迟的业务需求,此时 Storm 的更新迭代不活跃,所以不在选择之列。

当公司的业务场景出现实时流与离线流复用时,可以引入数据湖相关的技术实现两者的统一。去年,Shopee 开始进行流批一体的业务数据仓库建设,所以我们选择 Hudi 作为数据湖的组件,实现实时数据集成,满足业务需求。

技术是为业务需求服务的,技术的更迭也是以业务需求的发展为前提渐进式进行。比较好的保障技术更迭的方式是:选择满足业务需求的先进成熟技术,进行迭代式发展。我们之所以选择 Hudi 作为数据湖组件,就是因为它事务、索引和流批一体的存储能满足我们的业务在数据存储性能、查询时效性上和流批一体的需求。而在技术更迭的过程中,我们也是根据业务需求逐步落地。

邓启明:大数据发展过程中细分出很多的方向,作为新人,想要进入大数据行业有一定的门槛。能否结合您的亲身经验,介绍一下想要进入大数据领域的人需要掌握哪些知识?

邓林:作为新人想要进入大数据领域,首先需要有良好的计算机基础理论知识,例如掌握 Java、Scala、SQL、网络和数据库等;其次需要掌握工作需要的基础组件的应用实践知识,例如 Spark、Flink 任务开发、Kafka 与 HDFS 的应用。做好以上这两点就可以满足基本的大数据应用开发工作。

如果想要更加深入地掌握大数据领域的知识,则需要深度分析相关的组件架构与设计背后的理论知识。此时建议从与自己工作相关度较高的组件入手,这样可以达到事半功倍的效果。大数据领域起源于分布式处理技术,并深度参考了数据库相关的理论。在分析相关组件的过程中,与这两者相结合进行思考,更加有利于掌握组件的领域知识。例如 Flink 的数据一致性架构设计来源于分布式计算中的全局快照算法,对比 Flink 的架构实现与全局快照算法的原理,可以使我们更加清晰地掌握 Flink 数据一致性相关的领域知识。

最后,可以根据自己掌握的基础理论知识,类比到同类性的组件上,分析同类型组件上的差异,做到触类旁通的效果。我们将 Flink 的数据一致性实现与 Spark 的数据血缘的原理对比分析,可以更加清晰地了解 Flink Runtime 层的设计与 Spark Runtime 层设计的差异产生的原因。

邓启明:毕业季,尤其是在疫情的大背景下,您对毕业生的方向选择方面有什么样的建议?对初入职场的职场新人有什么样的建议?

邓林:疫情确实改变了很多事情,这里面有机会有挑战。建议大家对个人的职业发展有一个长远的视野,选自己有兴趣的事情。不要被短期的眼前困难所阻碍,也不要被看上去很吸引人的“风口”所迷惑,而去从事自己不喜欢也不想长期投入的工作。

对于刚进入职场的新人,我认为个人能力的提升是最重要的。所以在进入职场后,首先需要做好当前的工作,然后不断学习总结工作领域中的知识来提升自己。因为职业发展的过程永远是胜任工作、能力提升、参与更加复杂的工作,这样一个不断循环往复的过程。计算机行业的每一份工作背后都是领域知识与实际需求相互结合的过程,我们需要通过上述的往复过程,理解业务需求,学习领域知识来实现个人能力的提升。

邓启明:最后,作为湖仓一体专题的讲师,您对 GIAC 的内容有什么样的期待?对 GIAC 大会有什么样的寄语?

邓林:因为我一直从事大数据平台相关的开发工作,所以个人非常期待这一期 GIAC 大会在基础架构、数据智能平台演进方向的主题。希望通过这些领域专家们的分享,收获一些新的平台建设思路。最后,期待此次 GIAC 大会成为一次行业知识分享与交流盛会,会议圆满成功。

参考阅读:

  • Facebook是怎样保证缓存一致性的

  • 百度评论中台的设计与探索

  • Web3在遥远的未来?不,它已经来了!

  • Kafka 负载均衡在 vivo 的落地实践

本文由高可用架构原创。技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。

活动预告

↓↓↓

bac3dd34302b23090ad877abe1c21319.png

GIAC 全球互联网架构大会 2022 将于 7 月 22 - 23 日在深圳举行,本届 GIAC 议题共设置有 24 个专题,覆盖各类架构热点领域,每个主题由业内知名架构师、技术负责人等专家担任出品人,负责议题选取和质量把控。本次大会包括数据智能平台演进(由白海科技创始人兼CEO卢亿雷担任出品人)和湖仓一体(由Shopee Data Infra Team罗李担任出品人)等专题,将有更多本文相关内容演讲,点击阅读原文查看 GIAC 详细日程。

点击【阅读原文】,了解更多活动信息。

最后

以上就是自由秋天为你收集整理的与Shopee实时计算负责人聊聊湖仓一体的全部内容,希望文章能够帮你解决与Shopee实时计算负责人聊聊湖仓一体所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(88)

评论列表共有 0 条评论

立即
投稿
返回
顶部