概述
大数据仓库
背景和总体思路
数据仓库
- 面向主题,集成的,非易失的,反映历史变化的
传统数据仓库的问题和挑战
如何构建大数据仓库
- 稳定,可信,丰富,透明
大数据仓库的能力和特征
- 海量数据存储和处理
- 多样的api和计算框架
- 丰富的数据采集通道
- 多种安全防护措施及监控
大数据仓库架构设计原则
- 自下而上和自上而下
- 高容错
- 数据质量
- 数据冗余,利用存储换易用
架构及模型设计
架构设计原则
- 稳定
- 统一
- 安全
- 开放
- 实用
- 易用
- 灵活
设计之路
- 系统定位-》平台选型-》规划层次-》数据采集-》数据存储处理-》应用设计-》元数据-》运维管理-》前端展现
设计三个维度
- 功能架构
- 数据架构
- 技术架构
模型设计
- 维度建模
- 结构简单
- 便于事实数据分析
- 适合业务分析报表和BI
- 实体建模
- 结构复杂
- 便于事实数据分析
- 适合复杂数据内容的深度挖掘
星形模型和雪花模型(利用数据冗余,减少计算成本)
数据处理分层
- 上下三层(基础数据层-》中间层-》集市层)
- 流式数据
基础数据层
- 数据采集
- 数据清洗
- 数据归类
- 数据结构化
- 数据规范化
数据中间层
- 围绕实体打通行为
- 从行为抽象关系
- 冗余是个好手段
数据集市层
- 需求场景驱动,垂直构建
- 集市层深度挖掘数据价值
- 集市层需要能够快速试错
流式数据处理及加工
- 需求驱动
- 包含事实和维度
- 结构更扁平
搭建大数据仓库
业务流程
- 数据采集与整合
- 数据加工、存储与管理
- 数据应用与消费
结构化数据采集
- 全量采集
- 增量采集
- 实时采集
日志结构化
- 日志采集到平台前尽量不做结构化
- 换行符分割条,整条日志存储在一个表字段
- 通过UDF或MR计算框架实现日志结构化
- 日志原始结构越规范,解析成本越低
- 并不一定要完全平铺数据内容,结构化出重要常用字段
非结构化数据特征
- 语言转文本
- 图片识别
- NLP
- 图片标签
- video recognition
数据应用
- 统计服务
- 分析服务
- 标签服务
- 挖掘服务
离线数据共享安全性
- 多租户数据授权模型
架构设计最佳时间
- 数据表命名规范
- 分区表、工作流设计
- 计算框架应用(日志结构化,同类数据计算过程,减少数据扫描次数)、优化关键路径
大数据治理
几个方面
- 保障机制(规范)
- 管理
- 内容构建
数据管理健康评估体系
- 数据管理健康分
- 存储健康(未管理表,废弃表,生命周期过长,同源导入,数据相似或冗余)
- 计算健康(暴力扫描,数据倾斜,无效节点,依赖缺失,参数不合理,简单加工,相似计算)
- 重复数据治理(重复源头,计算相似,简单加工,通表同分区,空表,命名相似,特殊规则)
- 数据质量管理体系
- 事前:指定每份数据的数据质量监控规则
- 事中:监控和影响数据生成的过程,不符合质量要求的数据不算产出数据
- 事后:数据质量情况分析和打分,推动数据质量提升
- 数据生命周期
- 热 《32
- 温 31《 《180
- 冷 181《 《365
- 冰 》365
最后
以上就是鲜艳百褶裙为你收集整理的大数据仓库大数据仓库的全部内容,希望文章能够帮你解决大数据仓库大数据仓库所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复