概述
思维导图:统计学习方法
附:文本结构
统计学习方法
基本概念
统计学习的定义
又叫统计机器学习
基于数据构建概率统计模型,并运用模型进行预测和分析的一门学科
主要特点
建立在计算机和网络之上
以数据为研究对象,是数据驱动的学科
目的是对数据进行预测和分析
以方法为中心,构建模型,运用模型进行预测和分析
概率论、统计学、计算理论、最优化理论、计算机科学等多个领域的交叉学科
在发展中形成了独自的理论体系和方法
研究对象
数据
两大类型
离散数据
连续数据
从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,再回到对数据的预测和分析中去
前提
同类数据具有一定的统计规律性
表示
变量或变量组
目的
预测和分析
提高性能
让计算机更加智能
给人们带来新发现
学习什么样的模型?
如何学习模型?
方法
监督学习
非监督学习
半监督学习
强化学习
监督学习
应用
分类
输出为有限个离散变量
标注
输入输出均为变量序列
回归
输入输出均为连续变量
最常用损失函数是平方损失函数,可由著名的最小二乘法求解
假设
X和Y遵循联合概率分布
即训练数据和测试数据依联合概率分布P(X,Y)独立同分布产生
统计学习三要素
模型
模型目标分类
按概率分
概率模型
条件概率分布
P(Y|X) = P(X and Y)/P(X)
联合概率
P(XY)=P(X,Y)=P(X|Y)*P(Y)=P(Y|X)*P(X)
非概率模型
决策函数Y=f(X)
按标签分
监督
半监督
非监督
聚类
自编码
输入输出都是自己,可用于降维
按学习目标分
生成式
学习的是联合概率
判别式
直接学习条件概率或决策函数
策略
基本概念
损失(代价)函数和风险函数
Loss(Cost) Function
评估单次预测的好坏
Risk Function
评估平均损失
经验风险(损失)
模型函数对训练集的平均损失
学习目标,最小化风险
两个基本策略
最小化经验风险
最小化结构风险
保证经验风险和复杂度同时小
算法
如何找到全局最优解
如何提高求解效率
模型选择
正则化
交叉验证
泛化
两种监督学习模型
生成模型
由数据学习到联合概率,再求出条件概率分布
可还原出联合概率分布
学习收敛速度快
当存在隐变量时,仍可以用生成方法学习(隐马尔可夫),而不可使用判别式方法
常见模型
朴素贝叶斯法
步骤
1、计算先验概率
P(Y=0)
P(Y=1)
P(Y=k)
2、计算条件概率
P(X1 | Y=k)
P(X2 | Y=k)
P(Xn | Y=k)
3、计算后验概率
P(Y=k) * [连乘P(Xn | Y=k)]
判定结果
类别Ck = arg max P(Y=k)
原理
后验概率最大化可使期望风险最小化
推理
略......
参数估计方法
极大似然值估计
缺陷
先验估计容易出现概率0,影响后验概率的计算结果,产生分类偏差
贝叶斯估计
分子分母都加一个常数
此常数=1时为拉普拉斯平滑
可解决出现概率0的情况
EM算法
当含有隐变量或潜在变量时,需要用到EM算法
步骤
1、初始化参数
2、E步
3、M步
4、迭代2和3两步,直至收敛
核心
Q函数
隐马尔可夫模型
概念
是关于时序的概率模型
可用于标注问题的统计学习模型
由隐藏的马尔可夫链随机生成观测序列的过程
应用领域
语音识别
自然语言处理
生物信息
模式识别
三个基本问题
概率计算问题
概率计算算法
直接计算算法
前向计算算法
后向计算算法
学习问题
用极大似然估计的方法估计参数
学习算法
监督学习算法
Baum-Welch
预测问题
给定观测序列,求最有可能的对应的状态序列
预测算法
近似算法
维比特算法
判别模型
直接学习条件概率分布或决策函数
直接面对预测,学习效率高
直接学习P或f,可以对数据进行各种程度的抽象、定义特征并使用特征,简化学习问题的描述和执行方案
常见模型
感知机
决策函数
sign(w*x+b)
极小化损失策略
只计算误分类点
-yi(w*xi+b)
优化算法
随机梯度下降算法(SGD)
每次随机选取一个误分类点进行梯度下降
收敛性
训练数据线性可分时
感知机学习算法才是收敛的
存在无穷多个解
kNN
三个基本要素
距离度量
pL距离
曼哈顿距离
p=1
欧氏距离
p=2
其他
p>=3
K值的选择
K小,对噪音敏感,容易过拟合
一般取较小的K,并采用交叉验证法选取最优的K值
K大,容易受较远的点影响,导致预测发生错误
分类决策规则
kd树
构造kd树
是一棵二叉树
每个结点对应于一个k维超矩形区域
选择坐标轴,以中位数划分出两个超平面,不断重复
搜索kd树
寻找目标点所在的叶节点
线性扫描
性能低下,数据量大时不可行
决策树
基本步骤
特征选择
选择对训练数据有足够分类能力的特征
指标
信息增益
信息增益值
缺点
熵过大时,信息增益值也会相对变大,不好评估
信息增益比
优点
更准确评估
熵
随机程度大,熵就大
熵越大,信息增益越小
期望信息增益大,则熵要小
决策树生成
考虑局部最优
常用算法
ID3
C4.5
CART
剪枝
考虑全局最优
提高泛化能力,降低过拟合
常用算法
CART
SVM
名称
支持向量机
作用
二分类
目标
训练出一条边界函数,使得两个分类到边界的间隔之和最大化
学习方法
优化参数w和参数b
参数通常是一个矩阵
SMO算法
常用技巧
核方法
特征空间的缩放
或令分界更加明显
或令计算更加简单
或方便图形化数据
条件随机场
一种无向图模型
应用
自然语言文字或是生物序列
分词、词性标注和命名实体识别等序列标注任务
......
作用
处理海量数据的有效方法
计算机智能化的有效手段
计算机科学发展的一个重要组成部分
系统
计算
信息(属于此部分)
泛化
过拟合
训练集预测能力好,测试机预测能力差
预防方案
正则化
添加正则化项,期望结构化风险最小
交叉验证
通过使用验证集预测,选择最优模型
欠拟合
训练不足
泛化误差
对未知数据预测的误差
最后
以上就是缓慢毛衣为你收集整理的思维导图:统计学习方法的全部内容,希望文章能够帮你解决思维导图:统计学习方法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复