我是靠谱客的博主 高大服饰,最近开发中收集的这篇文章主要介绍【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处...,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、数仓为什么分层、怎么分层

1、数仓的作用

2、数仓的架构

3、数据采集层

4、数据存储与分析

 

 对于hive的操作,最传统的方式是采用MapReduce

也可以通过SparkSQL操作hive

最常用的是使用Presto操作Hive

5、数仓分层的好处,为什么要对其进行分层

对数据仓库有一定的要求

高效率:不同的粒度

高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做出错误决策

高扩展性:存算能力、支持组件式业务扩展能力,不能重建数据仓库【数据建模的合理性】

避免整个数据仓库都需要变更,影响ETL过程

6、为什么要对数仓分层

 原因:大量预处理提高效率,增强可扩展性,分布完成操作,简化业务

二、描述DWD层的设计思路

1、分层的举例

ODS

DWD:数据主题层/数据标准化

DWS

ADS

更多的是五层结构或更多

2、数据标准层的作用

用于数据治理

3、DWD的设计思路,数据模型如何建模

4、业务流程举例

三、拉链表为什么要进行分区,分区的目的是什么

四、介绍一下每一层的设计思路,并举个例子

五、框架原理、基础少、有时考hive的函数

最后

以上就是高大服饰为你收集整理的【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处...的全部内容,希望文章能够帮你解决【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处...所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(58)

评论列表共有 0 条评论

立即
投稿
返回
顶部