概述
一、云数据平台Snowflake简介
在现代数据堆栈的所有部分中,没有一个像云数据平台Snowflake一样迅速崛起。
虽然作为 Databricks、Amazon Redshift和Google BigQuery等云数据库的一部分,云数据平台Snowflake短短十年间凭借易于启动、低运营成本、即时和近乎于无限的可扩展性等优点赢得了6500多家企业客户的信赖并获得了12亿美元的年收入。
二、Snowflake存在的问题
许多客户仍然毫不掩饰地对云数据平台Snowflake充满热情,但大多数客户也开始意识到,在平台的日常体验之后,有几件事值得思考:
“低操作”并不意味着“没有操作”
事实一:Snowflake 提供高可用性和即时、自动的纵向扩展和缩减,只需很少的管理。事实二:就像涂防晒霜和使用牙线一样,监控数据库—无论操作多么少,都是防止今天和明天出现问题的好习惯之一。对Snowflake而言,需要预防的坏习惯包括数据可靠性下降、性能瓶颈和成本超支。
Snowflake的成本管理存在问题
虽然像Snowflake这样的即用即付云平台启动起来非常便宜,但如果没有设置适当的控制,成本可能会迅速上升。Snowflake的用户特别容易受到账单冲击的影响,也容易被 Snowflake的“正在工作”、即时、自动的可扩展性所迷惑,正如Snowflake成本管理案例中,这种迷惑可能导致一个电子商务公司一不小心就将一个7小时的代码测试配置为运行1000亿次,其结果是要此付出整整72000美元。
三、为什么数据仪表板和报告不够用
受到上述困扰的用户尝试了多种方法来获得对其Snowflake环境的可见性和控制权。然而,没有一个解决方案是完全令人满意的。
寻找解决方案
- Web界面监控
大多数用户开始尝试使用经典的Web界面监控和管理Snowflake。这要求用户编写SQL查询,并将结果输出到类似Excel的非图形工作表上。这种方法有非常明显的缺点:缺乏图像和手动创建查询的时间,并且需要花费大量精力。
- SnowSQL客户端
此时,许多Snowflake用户转向了其他选项。Python爱好者转向了SnowSQL客户端。
- 第三方仪表盘
还有一些人试图通过第三方基于批量处理的仪表板和来自Tableau、Sigma、Looker、Qlik等的报告来监控Snowflake。
方案存在缺点
上述这些方案都有不同的缺点。
-
与Snowflake的经典界面一样,SnowSQL是基于命令行的,几乎没有可视化功能。
-
APM工具具有以应用程序为中心的基础架构视图,这限制了它们对数据管道和数据质量的洞察力。
-
其余许多知名的第三方仪表板模板几年来都没有更新,这意味着它们无法显示Snowflake公开的全部质量、性能和成本元数据。
Snowflake的解决方案
除了现有的报告工具组合之外,Snowflake还于2020年宣布替代其名为SnowSight的默认管理界面。SnowSight于2021年中期发布GA,带来了可与Tableau或Looker相媲美的可视化仪表板以及其他几个功能,但大多数数据探索功能仍然需要使用文本SQL 查询。
现有解决方案无法满足数据工程师的需求
此外,所有这些工具(Snowflake-created、APM、仪表板和报告工具)都存在一个共同问题:它们不适合日常运营管理和监控,要么太慢、要么太细致或两者兼而有之。
这种数据详细程度和执行速度对于公司高管而言可能已经足够了,但对于需要持续实时可见性和控制其数据的数据工程师来说,这并非最佳选择。上述工具无法防止中断、成本超支和数据错误等问题,也无法实时通知此类问题的发生。
数据在企业中驱动了非常多的关键任务流程,企业根本无法承受长时间的数据中断及无法控制的数据质量问题。
四、现实世界的数据可见性问题
Snowflake为用户处理数据仓库中分区和索引的管理提供了低操作,它通过自动将大表划分为微分区并计算有关数据中包含的值范围来完成这一功能。这些统计信息确定了运行数据查询需要哪些数据子集,从而提高了数据查询速度。
-
数据和构架错误
但其中的问题就是从传统的分区和索引数据库迁移到Snowflake的数据必须在加载时进行转换,这可能会产生数据和架构错误。 -
应用程序和数据管道损坏
即使是一个小问题,例如Snowflake SQL的代码需要区分大小写,这可能会导致应用程序和数据管道损坏。 -
数据质量低下
传统的数据治理和报告工具往往只在单个时间点(例如数据被摄取时)抽查不一致数据并测试数据质量。如果没有持续的数据质量验证和测试,他们不会注意到在后续时间点出现的数据错误。
为了解决数据错误问题,Snowflake提供了一个名为Resource Monitors的实时警报工具,这是Snowflake的管理员围绕特定时间段内消耗的积分数手动设置的触发器。当达到积分达到限制时,Snowflake可以通知管理员或暂停数据仓库中的操作。值得可惜的是,Resource Monitors资源监视器只能由成本超支触发——而不是性能问题或数据可靠性等问题触发,同时给该工具的不灵活性也严重限制了它的功能发挥。
五、Acceldata的数据可观测性解决方案
将仅成本的资源监视器与其他 Snowflake或第三方仪表板工具组合在一起,无法为集中实时管理数据质量、数据性能和数据成本提供统一的可见性和控制。
越来越多的 Snowflake用户正在寻找更好的解决方案:一个数据可观测性平台,该平台可以自动执行持续性的数据验证和数据测试,以在整个组织范围内建立对数据的信任以及无中断的吞吐量和优化的性价比。
- 生成智能运营
像HK-Acceldata这样的数据可观测性平台通过摄取Snowflake可用的元数据,收集性能、成本和可靠性数据,并将这些数据围绕您的Snowflake环境生成的一组智能运营。
- 创建丰富的仪表盘
HK-Acceldata可以为管理员创建视觉丰富的仪表板。
例如,HK-Acceldata的支出智能仪表板汇总了Snowflake的所有服务使用情况,以分配真正的美元价值(而不仅仅是使用积分)。管理员可以查看不同类型的服务(例如计算、存储和集群)以及在不同时间段的高级成本趋势。他们还可以深入研究产生高成本的特定日期、数据库或数据表。
- 主动检测异常情况、生成预测模型并自动创建警报
HK-Acceldata数据可观测性方案中的Compute Observability会分析使用者的平均计算使用量,以便在工作负载和成本飙升时自动标记管理员。换句话说,HK-Acceldata不会像 Snowflake的资源监视器那样强迫使用者手动创建触发器和警报,而是为使用者创建它们。随着使用者使用模式的变化,HK-Acceldata还会为使用者更新这些触发器。
HK-Acceldata 还将围绕重复、唯一性、模式匹配、范围验证、模式检查等提出建议。过去需要数小时的努力现在只需点击几下即可在几分钟内完成。
- 进行容量规划
HK-Acceldata的容量规划功能可帮助使用者预测云资源消耗,这可以让使用者查看过度使用和未充分利用的内容,从而充分利用云资源并避免账单冲击。
- 实时性能监控
在性能监控领域,如果在使用高峰期导致Snowflake超时,HK-Acceldata会向管理员发出警报,同时还可以识别陌生账户、判断是否是数据仓库和工作负载导致了超时问题。这使使用者能够立即调查问题并缩短平均解决时间。HK-Acceldata的实时性能监控是Snowflake Resource Monitors无法实现的。
- 提高数据可靠性
HK-Acceldata提供的数据可靠性可以自动发现所有Snowflake数据集并创建所有数据的配置文件,包括它们的结构、元数据和关系以及依赖关系和沿袭。使用这些配置文件,HK-Acceldata可以向Snowflake管理员提供基于ML的建议,以简化数据质量策略和规则的创建。例如,HK-Acceldata 可以识别特定列中的数据应该是二进制(“是”或“否”)并且没有空值,然后它会建议将该规则添加到使用者的数据质量策略中。
此外,HK-Acceldata 应用这些数据质量规则以按照使用者配置的时间表连续运行——而不是仅在数据首次被摄取到 Snowflake运行,这有助于在数据随时间重复转换或组合时保持数据可靠性。
HK-Acceldata还自动清理和验证来自 Apache Kafka和Spark的传入实时数据流,这些数据流通常连接到使用者的Snowflake数据云。所有不完整、不正确和不准确的数据都会被实时标记,无需人工干预,从而保持数据流动,并将数据停机时间降至最低。
- 节约时间和成本
HK-Acceldata允许管理员定义应该应用或更频繁应用数据质量规则的数据段。这使用者可以模糊或跳过低优先级的列、表或整个数据仓库,从而节省Snowflake的处理时间和预算。
最后
以上就是清脆金毛为你收集整理的用Acceldata数据可观测性方案管理云数据平台Snowflake一、云数据平台Snowflake简介二、Snowflake存在的问题三、为什么数据仪表板和报告不够用四、现实世界的数据可见性问题五、Acceldata的数据可观测性解决方案的全部内容,希望文章能够帮你解决用Acceldata数据可观测性方案管理云数据平台Snowflake一、云数据平台Snowflake简介二、Snowflake存在的问题三、为什么数据仪表板和报告不够用四、现实世界的数据可见性问题五、Acceldata的数据可观测性解决方案所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复