机器学习笔记DAY1

292 阅读 0 评论 193 点赞

我是靠谱客的博主内向马里奥，这篇文章主要介绍机器学习笔记DAY1，现在分享给大家，希望可以做个参考。

一些基础术语

从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成，训练过程中使用的数据称为训练数据，其中每个样本成为训练样本，训练样本组成的集合称为训练集。
如果预测的是离散值，此类学习任务称为分类，如果我们预测的是连续值，此类学习任务称为回归。
对西瓜做聚类将训练集中的西瓜分成若干组，每组称为一个簇，这些自动形成的簇可能对应一些潜在的概念划分。在聚类学习过程中，具体能划分哪些簇是我们事先不知道的，而却训练样本中通常不拥有标记信息。
根据训练数据是否拥有标记信息，学习任务可大致分为两大类：监督学习 和无监督学习，分类和回归是前者的代表，而聚类则是后者的代表。
学得模型适用于新样本的能力，称为泛化能力。
“从样例中学习”，被称为归纳学习，要求从训练数据中学得概念，因此也被称为概念学习或概念形成。

举个例子，现在有一批训练数据集，有三个维度，色泽，根蒂，敲声，来判断是否是一个“好瓜”的概念。于是我们学得的将是**“好瓜是某种色泽、某种根蒂、某种敲声的瓜”**，在这里，某种就是尚未确定的取值，而我们的任务就是将这些值通过训练学习确定出来。而且需要具备一定的泛化能力，能够判断数据集之外的瓜是否是个好瓜。
学习的过程可以看作是在所有假设组成空间中搜索的过程，搜索与训练集匹配的假设。学习的过程是基于有限样本训练集进行的，因此可能存在多个匹配的假设，我们称这些假设的集合为”版本空间“。
在版本空间中的假设对应的模型在面对新的样本时，可能会产生截然不同的结果，如何输出一个模型，这就需要我们在算法的学习过程中对某种类型假设设置偏好，这种方式称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上”等效“的假设所蒙蔽。算法归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能
“奥卡姆剃刀”是一种常用的、自然科学研究中的最基本的原则，即若有多个假设与观察一致，则选最简单的那个。
当学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为过拟合。
误差评估方法：
留出法：将数据集划分为两个互斥的集合，一个数据集用来训练，另一个数据集来计算泛化误差。
交叉验证法：将数据集D划分为k个大小相似的互斥子集。每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。
自助法：给定包含m个样本的数据集D，我们对它进行采样产生数据集D‘，每次随机从D中挑选一个样本，将其拷贝放入D’，然后将样本放回初始数据集D中，使其下次能被采到，执行m次后，我们就得到了包含m个样本的数据集D’。
性能度量
对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量。
在预测任务中，给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)}，其中yi是示例xi的真实标记。

回归任务最常用的性能度量是**“均方误差”**

更一般的，对于数据分布D和概率密度函数p(·)，均方误差可描述为
错误率与精度
对样例集D，分类错误率定义为

精度则定义为

更一般的，对于数据分布D和概率密度p(·)，错误率与精度可分别描述为
1. 查准率与查全率
  对于二分类问题，可划分为四种情形：真正例TP、假正例FP、真反例TN、假反例FN。
  
  查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高是，查准率往往偏低。以查全率为横轴，查准率为纵轴，构成“P-R曲线”。断言一个学习器的性能度量有两种方式：
  平衡点：查全率=查准率
  F1度量：
  但在一些应用中，我们可能对与性能的度量标准有所偏好，譬如，给用户推荐，我更希望找到准确的、用户感兴趣的内容，而对于逃犯信息检索，就需要更注重查全率。由此，F1公式可演化如下：
  
  其中β>0 代表了查全率对查准率的相对重要性。β=1时退化为标准F1；β>1时查全率有更大的影响，β<1时查准率有更大的影响。
代价敏感错误率与代价曲线
为权衡不同类型错误所造成的不同损失，可为错误赋予”非均等代价“。以而分类任务为例，我们可根据任务的领域只是设定一个”代价矩阵“。

真正例率TRP、假正例率FPR

在非均等代价下，我们所希望的不再是简单的最小化错误次数，而是希望最小化”总体代价“。
若将表2.2的第0类作为正类、第1类作为反类，令D+与D-分别代表样例集D的正例子集和反例子集，则”代价敏感“错误率为

在非均等代价下，”代价曲线“可以直接反映出学习器的期望总体代价。代价曲线图的横轴是取值为[0,1]的正例概率代价

其中p是样例为正例的概率；纵轴是取值为[0,1]的归一化代价

其中FPR是假正例率，FNR=1-TPR是假反例率。
泛化误差可分解为偏差、方差与噪声之和。
以回归任务为例，学习算法的期望预测为

使用样本数相同的不同训练集产生的方差为

噪声为

期望输出与真实标记的差别成为偏差

对算法的期望泛化误差进行分解：

偏差度量了学习算法的期望预测与真是结果的偏离程度，即刻画了学习算法本身的你和能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；噪声则表达了在当前任务上人和学习算法所能达到的期望泛化误差的下届，即刻画了学习问题本身的难度。