概述
数据处理/ELT/大数据
一、数据处理定义、动机
- 定义:对数据进行正式处理(计算)之前,根据后续数据计算的需求对原始数据集进行审计、清洗、变换、集成、脱敏、规约和标注等一系列处理活动,提升数据质量,并使数据形态更加符合某一算法要求,进而达到提升数据计算的效果和降低其复杂度的目的。
- 动机(两方面)
- 数据质量要求。
- 数据算法要求。
二、 数据准备概念
- 处理模型 Process model
- 准备过程
- Data characterization 数据特征化
- Data cleaning 数据清洗
- Data integration 数据集成
- 数据处理必须高效(空间上要省,时间上要快,因为数据一是量大,而是异构性强)
- Data transfer 数据转化(对付异构化)
- Data serialization and deserialization 数据序列化和反序列化(提升速度)
- 准备过程
- 现状
- The Businessperson(围绕简单工具如EXCEL,做数据的简单整合处理等。)
- 数据源头 Data Sources
- Web pages,Excel
- 数据准备 ETL
- Copy and paste
- 数据仓库 Data Warehouse
- Excel
- 商务分析 Business Intelligence and Analytics
- Excel functions,Excel charts,Visual Basic?! (简单程序生成报表)
- 数据源头 Data Sources
- The Programmer(用多样的编程相关的库和工具来处理数据,没有专业工具)
- 数据源头 Data Sources
- Excel spreadsheet exported as CSV,Database queries
- 数据准备 ETL
- Wget(Linux下的下载网页命令工具),curl(利用URL传输文件的工具),Beautiful Soup( Python写的一个HTML/XML的解析器 ),lxml(Python处理xml的工具)
- 数据仓库 Data Warehouse
- Flat files(无专用数据库)
- 商务分析 Business Intelligence and Analytics
- Numpy,Matplotlib,R
- 数据源头 Data Sources
- The Enterprise(应用数据相关专业工具和库来处理数据)
- 数据源头 Data Sources
- Application databases,Intranet files,Application server log files
- 数据准备 ETL
- Informatica,IBM DataStage,Ab Initio,Talend(以上都是IT数据集成软件,可以看成是ERP)
- 数据仓库 Data Warehouse
- Teradata,Oracle,IBM DB2,Microsoft SQL Server
- 商务分析 Business Intelligence and Analytics
- Business Objects,Microstrategy(商务数据分析软件)
- SAS,SPSS,R
- 数据源头 Data Sources
- The Web Company(采用大数据Hadoop平台来处理大数据)
- 数据源头 Data Sources
- Application databases,Logs from the services tier,Web crawl data(网络爬虫)
- 数据准备 ETL
- Flume( Cloudera 推出的海量日志系统),Sqoop(Hadoop与传统数据之间的转换),Pig(提供Hadoop上类似于SQL的查询),Crunch( 基于 MapReduce 的数据管道库 ),Oozie(组合多个MAP/REDUCE任务任务的组件)
- 数据仓库 Data Warehouse
- Hadoop/Hive,Spark/Shark(SQL on Spark)
- 商务分析 Business Intelligence and Analytics
- R (Google 在用),以及web company自己定做的系统软件
- 数据源头 Data Sources
- 总结
- 平台和工具的使用越来越高级。
- 互联网公司必须对付大数据,从而产生了大数据平台和工具(Hadoop系列)。
- 互联网公司所应用和推出的平台与工具正式我们需要的。
- 工具的选择是随着需求推动,而需求主要来自于数据的复杂性(量大+异构性)。
- The Businessperson(围绕简单工具如EXCEL,做数据的简单整合处理等。)
三、ETL的概念及应用场景
- 将分散的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。
- 步骤(Extract, Transform, Load)
- 从源端抽取(extract)数据
- 根据需要在各个阶段转换(transform)数据
- 把数据加载(load)到终端
- 应用场景
- Sources: file, database, event log, …
- Sinks(不一定是数据仓库): Python, R, SQLite, RDBMS, Data Warehouse
四、大数据特征(4V)
- Volume(数据量大)
- Variety(类型多)
- Value(价值密度低)
- Velocity(速度快)
最后
以上就是耍酷悟空为你收集整理的数据科学 | 期末复习 · ①数据处理/ELT/大数据数据处理/ELT/大数据的全部内容,希望文章能够帮你解决数据科学 | 期末复习 · ①数据处理/ELT/大数据数据处理/ELT/大数据所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复