我是靠谱客的博主 耍酷悟空,最近开发中收集的这篇文章主要介绍数据科学 | 期末复习 · ①数据处理/ELT/大数据数据处理/ELT/大数据,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

数据处理/ELT/大数据

一、数据处理定义、动机

  • 定义:对数据进行正式处理(计算)之前,根据后续数据计算的需求对原始数据集进行审计、清洗、变换、集成、脱敏、规约和标注等一系列处理活动,提升数据质量,并使数据形态更加符合某一算法要求,进而达到提升数据计算的效果降低其复杂度的目的。
  • 动机(两方面)
    • 数据质量要求。
    • 数据算法要求。

二、 数据准备概念

  • 处理模型 Process model
    • 准备过程
      • Data characterization 数据特征化
      • Data cleaning 数据清洗
      • Data integration 数据集成
    • 数据处理必须高效(空间上要省,时间上要快,因为数据一是量大,而是异构性强)
      • Data transfer 数据转化(对付异构化)
      • Data serialization and deserialization 数据序列化和反序列化(提升速度)
  • 现状
    • The Businessperson(围绕简单工具如EXCEL,做数据的简单整合处理等。)
      • 数据源头 Data Sources
        • Web pages,Excel
      • 数据准备 ETL
        • Copy and paste
      • 数据仓库 Data Warehouse
        • Excel
      • 商务分析 Business Intelligence and Analytics
        • Excel functions,Excel charts,Visual Basic?! (简单程序生成报表)
    • The Programmer(用多样的编程相关的库和工具来处理数据,没有专业工具)
      • 数据源头 Data Sources
        • Excel spreadsheet exported as CSV,Database queries
      • 数据准备 ETL
        • Wget(Linux下的下载网页命令工具),curl(利用URL传输文件的工具),Beautiful Soup( Python写的一个HTML/XML的解析器 ),lxml(Python处理xml的工具)
      • 数据仓库 Data Warehouse
        • Flat files(无专用数据库)
      • 商务分析 Business Intelligence and Analytics
        • Numpy,Matplotlib,R
    • The Enterprise(应用数据相关专业工具和库来处理数据)
      • 数据源头 Data Sources
        • Application databases,Intranet files,Application server log files
      • 数据准备 ETL
        • Informatica,IBM DataStage,Ab Initio,Talend(以上都是IT数据集成软件,可以看成是ERP)
      • 数据仓库 Data Warehouse
        • Teradata,Oracle,IBM DB2,Microsoft SQL Server
      • 商务分析 Business Intelligence and Analytics
        • Business Objects,Microstrategy(商务数据分析软件)
        • SAS,SPSS,R
    • The Web Company(采用大数据Hadoop平台来处理大数据)
      • 数据源头 Data Sources
        • Application databases,Logs from the services tier,Web crawl data(网络爬虫)
      • 数据准备 ETL
        • Flume( Cloudera 推出的海量日志系统),Sqoop(Hadoop与传统数据之间的转换),Pig(提供Hadoop上类似于SQL的查询),Crunch( 基于 MapReduce 的数据管道库 ),Oozie(组合多个MAP/REDUCE任务任务的组件)
      • 数据仓库 Data Warehouse
        • Hadoop/Hive,Spark/Shark(SQL on Spark)
      • 商务分析 Business Intelligence and Analytics
        • R (Google 在用),以及web company自己定做的系统软件
    • 总结
      • 平台和工具的使用越来越高级。
      • 互联网公司必须对付大数据,从而产生了大数据平台和工具(Hadoop系列)。
      • 互联网公司所应用和推出的平台与工具正式我们需要的。
      • 工具的选择是随着需求推动,而需求主要来自于数据的复杂性(量大+异构性)。

三、ETL的概念及应用场景

  • 分散的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。
  • 步骤(Extract, Transform, Load)
    • 从源端抽取(extract)数据
    • 根据需要在各个阶段转换(transform)数据
    • 把数据加载(load)到终端
  • 应用场景
    • Sources: file, database, event log, …
    • Sinks(不一定是数据仓库): Python, R, SQLite, RDBMS, Data Warehouse

四、大数据特征(4V)

  • Volume(数据量大)
  • Variety(类型多)
  • Value(价值密度低)
  • Velocity(速度快)

最后

以上就是耍酷悟空为你收集整理的数据科学 | 期末复习 · ①数据处理/ELT/大数据数据处理/ELT/大数据的全部内容,希望文章能够帮你解决数据科学 | 期末复习 · ①数据处理/ELT/大数据数据处理/ELT/大数据所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部