概述
大数据思维与技术——中国大学MOOC课程笔记
第一章 大数据思维与技术认知
0 一些例子
总之 大数据分析现在已经存在于方方面面。但事实上,其首次提出仅仅是20世纪90年代,而直到2011年6月,美国麦肯锡全球研究院发布了题为《大数据:下一个创新、竞争和生产力的前沿》的研究报告,“大数据(BIG DATA)”一词才真正“热”起来。
1 一些概念和想法
大数据的定义是: 规模庞大、类型众多、变化速度快、价值密度低的数据集合。
- 大数据分析流程一般包括:大数据采集、导入和预处理、统计和分析、挖掘。
- 大数据算法存在很多问题,例如过拟合和虚假信息的识别。
2 核心架构与分析计算模式
- Hadoop是Apachc软件基金会旗下的一个开源分布式计算平台,为用户提供系统层细节透明的分布式基础架构。Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce.
- 国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中中,淘宝的Hadoop集群比较大。
- HDFS可以利用由廉价硬件构成的计算机集群实现海量数据的分布式存储。块是HDFS核心的概念,一个大的文件会拆分成很多个块。HDFS采用抽象的块概念,具有支持大规模文件存储、简化系统设计、适合数据备份等优点。
- Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
- **Spark支持R语言 **
- Hive是一个构建于Hadoop顶层的数据仓库工具,主要用于对存储在Hadoop文件中的数据集进行数据整理、牛特殊查询和分析处理
Impala作为新一代开源大数据分析引擎,支持实时计算,并在性能上比Hive高出3~30倍。【依赖HIVE元数据】
第二章 大数据分析领域技术
1 自然语言处理
自然语言通常是指一种自然地随文化演化的语言。是人类交际的工具, 是人类思维的载体,以语音为物质外壳,由词汇和语法组成的符号系统。自然语言处理(Natural Language Processing,NLP)是实现人机间自然语言通信,使计算机能理解自然语言文本的意义和利用自然语言文本 表达给定的意图或思想。
2 自然语言处理的目标和框架
- 框架语义FrameNet-知识库
- 命题语义PropBank-知识库
- 句义结构模型CSM
3 自然语言处理关键技术
知识图谱(Knowledge Graph)于2012年5月首次提出,是Google用于 增强其搜索引擎功能的知识库,本质上,知识图谱是旨在描述实体、概念、关系的图结构。
文本情感分析(也称为意见挖掘)是指用自然语言处理,文本挖掘以及 计算机语言学等方法来识别和提取原素材中的主观信息。
4 其他例子
生物信息学:广义的概念:应用信息科学的方法和技术,研究生物体系和生物过 程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细 胞、组织、器官的生理、病理、药理过程中的各种生物信息 • 狭义的概念:应用信息科学的理论、方法和技术,管理、分析和利 用生物分子数据,通过收集、组织、管理生物分子数据,获得和使 用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的 生物学知识,加深对生物世界的认识。
第三章 大数据分析编程基础
1 虚拟化
虚拟化,是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计 算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并 且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机 的利用效率。
2 VPS
VPS(Virtual Private Server虚拟专用服务器)。
VPS通常使用SSH软件连接,例如 Xshell Putty。
3 Linux 基础
linux系统一切都是文件,每个文件都有拥有者、用户组、其他人三个权限。
-
ls -al 显示目录详细信息
-
Vim 文本编辑器 有正常模式、插入模式
-
Kali Linux
-
apt update 用来更新
- -apt 用来下载包
-
文件、目录管理的常见命令
• man
- 搜索命令的相关文档,https://linux.die.net/
• pwd
- 显示终端的当前路径(工作路径,working directory)
• mkdir
- 创建新的目录
• rmdir
- 删除一个空的目录
• cp
-
复制文件或目录
-
mv
- 移动文件或目录
• rm
- 移除文件或目录
• cd
- 切换终端的当前路径
-
Vim编辑器
-
vim有四个模式 - 正常模式(Normal-mode), 用于浏览文件, 此时敲击键 盘会触发对应的快捷键,而 不会输入文字, 如按键盘上 的“i”,就会进入插入模式
-
命令模式(Command-mode),
- 在正常模式下按“:”(注意是冒号,不是分号)
• 在此模式下可以输入各种命令, 如w保存文件,wq保存文件并退出, wq!写 文件并强制退出
-
可视模式(Visual-mode),
- 在正常模式按下v,可以进入可视模式。可视模式中的操作有点像拿鼠标进 行操作, 选择文本的时候有一种鼠标选择的即视感, 有时候会很方便,如 复制大段文字。
-
vim的常用命令
• 复制粘贴
- 单行文字的复制和粘贴
• 正常模式下按yy为复制,按p为粘贴
- 多行文字的复制和粘贴
• 在可视模式下按y为复制,在正常模式下按p为粘贴
- 使用命令模式进行复制和粘贴
• 删除
-
在正常模式下按dd删除当前行
-
查找
-
在normal模式下按下/即可进入查找模式, 输入要查找的字符串并按下回 车。Vim会跳转到第一个匹配。按n查找下一个,按N查找上一个
-
支持正则表达式
-
-
替换
-
在命令模式下输入以下指令
-
作用范围s/目标/替换/替换标志
-
:%s/abc/def/g,在全局范围内查找abc,并把所有的abc 替换为def
-
作用范围可以为某行、某个选区、全文
-
替换标志可以设置为
• 从光标位置开始,只替换一次
• 大小是否敏感
-
课程关于C语言、Python语言和Java的介绍不在此列举。
-
第四章 大数据分析计算方法
1机器学习
机器学习是一门致力于研究如何通过计算的手段,利用经验改善系统自身的性能的多领域交叉性学科。
1.1监督学习
利用已知类别的样本调整模型的参数,使其达到所要求性能的学习过程。
- 监督学习中常见的模型是回归模型和分类模型。
1.2无监督学习
利用未知类别的样本调整模型的参数,使其达到所要求性能的学习过程。
- 无监督学习常见的模型是聚类模型。
1.3强化学习
智能体在与环境的连续互动中学习最优行为策略的学习过程。
- 强化学习是智能体在环境的联系互动中学习最优行为策略。
1.4模型评估
根据模型在未知样本上进行的实验和测试的结果,评估模型的泛化能力和误差并进行选择的过程被称为模型评估。
过拟合:当模型将训练样本自身的一些特性当作了所有潜在样本的一般特性时,就会导致模型泛化性能下降。
欠拟合:相对于过拟合,模型对训练样本的一般特性尚未达到良好的学习效果,导致模型表现较差。
1.5模型训练
损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的 “损失”的函数。包括 绝对损失函数和平方损失函数以及0-1损失函数。
梯度下降法(gradient descent)是一个优化算法,在机器学习的训练中,常用于递归性地逼近最小误差模型。其计算过程是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。
1.6性能度量
性能度量即衡量模型泛化能力的评价标准。
2 监督学习
监督学习是训练数据有标记信息,无监督学习是训练数据没有标记信息。
回归问题是预测值为连续值,分类问题是预测值为离散值。
2.1 线性回归
单变量线性回归:输入属性只有一个,即一元问题;
多变量线性回归:输入属性有多个,即多元问题。
逻辑回归用来解决分类问题。即分类任务,将分类任务的真实标记与线性回归模型的预测值联系。
2.2 朴素贝叶斯
- 贝叶斯决策论
在不完全情报下,对部分未知的状态用主观概率估计(先验概率),然后用贝叶斯公式对发生概率进行修正(后验概率),最后再利用期望值和修正概率做出最优决策。
- 贝叶斯分类器
概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概率为样本判定最优的类标。
- 朴素贝叶斯
基于贝叶斯定理与特征条件独立假设的贝叶斯分类方法。
2.3 决策树
在机器学习中,决策树代表对象属性与对象值之间的一种映射关系。决策树算法采用树形结构,通过层层决策来实现最终的分类。
2.4 支持向量机
按监督学习**(supervised learning)方式对数据进行二元分类的广义线性分类器。其决策边界是根据学习样本求解的最大间隔超平面(maximum-margin hyperplane)**
2.5 KNN算法
KNN(K-Nearest Neighbor),K邻近算法,一种基本的分类与回归方法。
3 无监督学习
3.1 聚类
聚类是无监督学习的一个领域,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。其灵感来源于人类对未知事物的探索,通过“物以类聚,人以群分”的思想,将相似的事物聚集在一起,主要包含原型聚类、层次聚类和密度聚类。
原型聚类(prototype-based clustering)指基于原型的聚类,此类算法假设聚类结构可以通过一组原型刻画。
层次聚类(hierarchical clustering)在不同层次上对数据进行划分。- 层次聚类算法主要分为基于凝聚策略的算法和基于分裂策略的算法。
密度聚类:基于密度的聚类算法是一类以数据集在空间分布上的稠密程度为依据进行聚类的算法。
3.2 主成分分析
主成分分析 是对于原先提出的所有变量 ,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得新变量之间互不相关。而且在反映课题的信息方面,这些新变量尽可能保持原有的信息不减少。
设法将原来变量重新组合成一组新的互相无关的几个综合变量 ,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析**(Principal** Component Analysis,PCA**)**或称主分量分析,也是数学上用来降维的一种方法。
3.3 关联规则学习
关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
4 集成学习
集成学习是一种机器学习范式,思路是通过构建并结合多个学习器(通常称为个体学习器)来完成学习任务。
Boosting 是一族可将弱学习器(准确率在60%-80%)提升为强学习器(准确率在 **90%**以上)的算法。
AdaBoost 主要应用于二分类问题。
Bagging 是一种个体学习器之间不存在强依赖关系、可同时生成的并行式集成学习方法。
随机森林**(RF)是Bagging的扩展体。RF在以决策树为基学习器构建Bagging**集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
Stacking 算法是一种有效的集成方法,它用不同的分类器产生的预测作为下一层学习算法的输入,是一种分层模型集成框架。
5 深度学习
深度学习:为了学习一种好的表示,需要构建具有一定“深度”的模型,并通过学习算法来让模型自动学习出好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测模型的准确率。为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征,或者更一般性地称为表示。如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就可以叫作表示学习。
-
人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神经科学启发的数学模型。这些模型主要是通过对人脑的神经元网络进行抽象,构建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生物神经网络。在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Model)。
-
人工神经元(Artificial Neuron),简称神经元(Neuron),是构成神经网络的基本单元,其主要是模拟生物神经元的结构和特性,接收一组输入信号并产生输出。
-
前馈网络中各个神经元按接收信息的先后分为不同的组。每一组可以看作一个神经层。每一层中的神经元接收前一层神经元的输出,并输出到下一层神经元。整个网络中的信息是朝一个方向传播,没有反向的信息传播,可以用一个有向无环路图表示。前馈网络包括全连接前馈网络和卷积神经网络等。
-
记忆网络,也称为反馈网络,网络中的神经元不但可以接收其他神经元的信息,也可以接收自己的历史信息。和前馈网络相比,记忆网络中的神经元具有记忆功能,在不 同的时刻具有不同的状态。记忆神经网络中的信息传播可以是单向或双向传递,因此可用一个有向循环图或无向图来表示。记忆网络包括循环神经网络、玻尔兹曼机(受限玻尔兹曼机)等。
-
图网络是定义在图结构数据上的神经网络,图中每个节点都由一个或一组神经元构成。 节点之间的连接可以是有向的,也可以是无向的。每个节点可以收到来自相邻节点或自身的信息。图网络是前馈网络和记忆网络的泛化,包含很多不同的实现方式,比如图卷积网络(Graph Convolutional Network,GCN)、图注意力网络(Graph Attention Network,GAT)等。
-
卷积神经网络(Convolutional Neural Networks,CNN)一般是由卷积层、汇聚层和全连接层交叉堆叠而成的深层前馈神经网络。
-
循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。
-
生成式对抗网络 GAN 是一种特殊的生成模型。- 由两部分主成:生成器G / 判别器D,生成器和判别器之间的一个对抗游戏。生成器用一随机噪声向量z尽量去捕捉真实样本数据的分布,判别器是一个二分类器,判别输入是真实数据还是生成的样本。当对抗过程进行到一定程度,如果生成器所生成的数据,能够使具有很强分辨能力的判别器仍无法正确判断,生成器实际上已经学到了真实数据的分布。
6 强化学习
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
第五章 大数据分析计算平台
5.1 虚拟化技术
- 按虚拟的抽象层次不同,可以分为:
- 指令级虚拟化
- 硬件级虚拟化
- 操作系统级虚拟化
- 编程语言级虚拟化
- 程序库级虚拟化.
-
虚拟机:在硬件平台上模拟出的多个独立、ISA结构和实际CPU相同的虚拟硬件系统。
-
虚拟机监视器:位于计算机硬件和操作系统之间。根据VMM在整个系统中的所处位置,可以将VMM分为独立监控模式、宿主模式
和混合模式
- 虚拟化技术的应用
5.2 GPU
- GPU的特性:
- 算术逻辑单元多 ,任务执行高并行
- 控制逻辑简单,运行环境简单纯净
- 显存读写速度快,处理数据规模庞大
5.3 其他大数据分析计算平台
包括Spark平台、Hadoop平台、Flink品台、ssh安装配置、JDK安装等。
第六章 大数据分析特征工程
6.1 概念解析
特征工程是把一个原始数据转变为特征的过程,这些特征能够很好地描述这些数 据,并且利用它们建立的模型,可以使得在未知数据上的表现接近最佳性能。
特征工程简介步骤:特征获取——特征处理——特征监控
特征工程,就是将数据属性转换为数据特征的过程。
定性数据,指研究中使用的文字资料,是由文本的词语、句子组成的材料。
- 任何文字资料都可以用作研究的定性数据,如小说、期刊、论文、演讲词、作文等。
• 定性数据分为以下两个等级:
- 定类等级:按事物某种属性分类或分组,可用数字代表类别,但不能进行大小比较, 不能做四则运算;
- 定序等级:按事物某种属性分类或分组,可用数字代表类别,可进行大小比较,但不 能做四则运算。
定量数据,能够用数据或统一的结构加以表示的信息,如数字、符号。
- 包括信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
• 定量数据分为以下两个等级:
- 定距等级:既能比较各类事物的优劣,又能计算出事物间差异的大小,表现为数值, 没有绝对零点,可做加减运算,不能做乘除运算;
- 定比等级:既能比较各类事物的优劣,又能计算出事物间差异的大小,表现为数值, 有绝对零点,可做加、减、乘、除运算。
6.2 数据清洗
数据采样
现实的分类学习任务中存在:样本总数过多无法全部用于训练的问题;不同类别的训练样本数目差别很大的类别不平衡问题。
数据采样是从样本总体中选取合适数量和比例的样本用于分类器训练的方法
- 简单随机采样:在确定好研究对象的总体后,往往由于成本和资源的限制,需要抽取部分样本进一步研究。常用的抽样方法有随机采样和分层采样。
- 系统采样:因此将总体按照某一标志(如时间)顺序排列或者随机进行编号,分成数量相等的组,使组数与取样数相等,然后从每组中按照事先确定的次序抽取个体,这样的抽样方法称为系统采样
- 分层采样:分层采样是按对主要研究指标影响较大的某种特征,将总体分为若干类别(统计上称为“层”),再从每一层内随机抽取一定数量的观察单位,合起来组成样本
- 欠采样:欠采样通过减少样本数量提高类别间平衡性
- 过采样:过采样通过模拟或补充额外数据提高类别间平衡性
缺失值处理
若出现缺失值的特征或样本仅包含极少量有效值,则将包含缺失值数据的列或者行从数据中删除。
数据填充方法通常基于统计学原理,根据当前缺失值所在特征的其他非缺失特征
值的分布情况来进行填充,分为以下几类- 人工填充- 平均值填充- 热卡填充- KNN填充- 期望最大化填充- 多重插补。
热卡填充:在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充
6.3 特征处理
6.3.1 类别特征处理
类别型特征主要是指只有在选项内取值的特征。
序列编码通常用于处理类别间具有大小关系的数据。
6.3.2 数值特征处理
归一化(Normalization),它是将特征(或者数据)都缩放到一个指定的大致相同的数值区间内。
均值方差归一化是把数据通过方差缩放处理,得到均值为0,方差为1的数值分布。
连续属性的离散化,就是将连续属性的值域划分为若干个离散的区间。
6.3.3 文本特征处理
文本特征处理包含文本的表示及其特征项的处理。
统计方法有词袋模型、词频统计等。
6.3.4 标准化归一化
标准化与归一化的区别?
- 标准化:按比例缩放数据,使之落入小空间内。
- 归一化:对原始数据线性变换并映射到**[0,1]**区间。
6.3.5 特征转换方法
大数据的分析与处理通常需要收集大量的数据,并对数据的多维特征进行分析。但是数据的特征维数越多,其分析处理的工作量和难度也就越大。
利用特征之间的相关性提出了许多优秀的特征转换方法:如主成分分析(PCA),线性判别分析(LDA)等。
PCA算法的缺点:主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
LDA算法缺点:
- LDA不适合对非高斯分布样本进行降维,上述PCA也存在相同问题;
- LDA降维最多降到类别数k-1的维数,如果降维的维度大于k-1,则不能使用LDA;
- LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好;
- LDA可能过度拟合数据。
6.3.6 特征选择方法
“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征选择:给定n个特征,搜索其中包括k(k<n)个特征的子集来改善机器学习的性能,是从原始数据中选择最优特征的过程。
特征选择方法:过滤法——给定n个特征,搜索其中包括k(k<n)个特征的子集来改善机器学习的性能,是从原始数据中选择最优特征的过程。
包裹法:确定模型和评价准则之后,根据目标函数每次选择或排除若干特征,直到选择出最佳的子集。
嵌入法:在确定模型的过程中,将特征选择和训练过程融为一体,作为学习算法的一部分挑选出对模型训练有重要意义的特征。
第七章 大数据分析工程实践
略。
最后
以上就是俏皮小伙为你收集整理的大数据思维与技术——中国大学MOOC课程笔记大数据思维与技术——中国大学MOOC课程笔记的全部内容,希望文章能够帮你解决大数据思维与技术——中国大学MOOC课程笔记大数据思维与技术——中国大学MOOC课程笔记所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复