管理数据质量、准确性和一致性的策略
首先,对数据管道依赖图的全面审计减少了识别错误数据之前的时间。从属作业将对他们收到的数据符合预期有很高的信心,并且他们可以进一步缩小所需的验证范围。在创建审计时,数据所有者必须认识到收集审计的成本与通过检查会带来的信心增加之间的权衡。例如,与存储在分布式对象存储数据湖中的探索性数据集相比,流入昂贵的高性能数据库用于监管报告的数据需要更多的质量保证。对于调试数据问题,如果有强大的工具来理解错误数据集的来源,则可以节省大量时间。在这种情况下,审计的价值是可以直接衡量的,并且与它支持的业务计算的价值一