思维导图：统计学习方法

48 阅读 0 评论 32 点赞

我是靠谱客的博主缓慢毛衣，最近开发中收集的这篇文章主要介绍思维导图：统计学习方法，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

思维导图：统计学习方法

在这里插入图片描述

附：文本结构

统计学习方法
	基本概念
		统计学习的定义
			又叫统计机器学习
			基于数据构建概率统计模型，并运用模型进行预测和分析的一门学科
		主要特点
			建立在计算机和网络之上
			以数据为研究对象，是数据驱动的学科
			目的是对数据进行预测和分析
			以方法为中心，构建模型，运用模型进行预测和分析
			概率论、统计学、计算理论、最优化理论、计算机科学等多个领域的交叉学科
			在发展中形成了独自的理论体系和方法
		研究对象
			数据
				两大类型
					离散数据
					连续数据
				从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，再回到对数据的预测和分析中去
				前提
					同类数据具有一定的统计规律性
				表示
					变量或变量组
		目的
			预测和分析
			提高性能
			让计算机更加智能
			给人们带来新发现
			学习什么样的模型？
			如何学习模型？
		方法
			监督学习
			非监督学习
			半监督学习
			强化学习
		监督学习
			应用
				分类
					输出为有限个离散变量
				标注
					输入输出均为变量序列
				回归
					输入输出均为连续变量
						最常用损失函数是平方损失函数，可由著名的最小二乘法求解
			假设
				X和Y遵循联合概率分布
				即训练数据和测试数据依联合概率分布P(X,Y)独立同分布产生
		统计学习三要素
			模型
				模型目标分类
					按概率分
						概率模型
							条件概率分布
								P(Y|X) = P(X and Y)/P(X)
							联合概率
								P(XY)=P(X,Y)=P(X|Y)*P(Y)=P(Y|X)*P(X)
						非概率模型
							决策函数Y=f(X)
					按标签分
						监督
						半监督
						非监督
							聚类
						自编码
							输入输出都是自己，可用于降维
					按学习目标分
						生成式
							学习的是联合概率
						判别式
							直接学习条件概率或决策函数
			策略
				基本概念
					损失（代价）函数和风险函数
						Loss（Cost） Function
							评估单次预测的好坏
						Risk Function
							评估平均损失
					经验风险（损失）
						模型函数对训练集的平均损失
				学习目标，最小化风险
				两个基本策略
					最小化经验风险
					最小化结构风险
						保证经验风险和复杂度同时小
			算法
				如何找到全局最优解
				如何提高求解效率
		模型选择
			正则化
			交叉验证
			泛化
		两种监督学习模型
			生成模型
				由数据学习到联合概率，再求出条件概率分布
					可还原出联合概率分布
					学习收敛速度快
					当存在隐变量时，仍可以用生成方法学习（隐马尔可夫），而不可使用判别式方法
				常见模型
					朴素贝叶斯法
						步骤
							1、计算先验概率
								P(Y=0)
								P(Y=1)
								P(Y=k)
							2、计算条件概率
								P(X1 | Y=k)
								P(X2 | Y=k)
								P(Xn | Y=k)
							3、计算后验概率
								P(Y=k) * [连乘P(Xn | Y=k)]
								判定结果
									类别Ck = arg max P(Y=k)
						原理
							后验概率最大化可使期望风险最小化
							推理
								略......
						参数估计方法
							极大似然值估计
								缺陷
									先验估计容易出现概率0，影响后验概率的计算结果，产生分类偏差
							贝叶斯估计
								分子分母都加一个常数
									此常数=1时为拉普拉斯平滑
									可解决出现概率0的情况
							EM算法
								当含有隐变量或潜在变量时，需要用到EM算法
								步骤
									1、初始化参数
									2、E步
									3、M步
									4、迭代2和3两步，直至收敛
								核心
									Q函数
					隐马尔可夫模型
						概念
							是关于时序的概率模型
							可用于标注问题的统计学习模型
							由隐藏的马尔可夫链随机生成观测序列的过程
						应用领域
							语音识别
							自然语言处理
							生物信息
							模式识别
						三个基本问题
							概率计算问题
								概率计算算法
									直接计算算法
									前向计算算法
									后向计算算法
							学习问题
								用极大似然估计的方法估计参数
								学习算法
									监督学习算法
									Baum-Welch
							预测问题
								给定观测序列，求最有可能的对应的状态序列
								预测算法
									近似算法
									维比特算法
			判别模型
				直接学习条件概率分布或决策函数
					直接面对预测，学习效率高
					直接学习P或f，可以对数据进行各种程度的抽象、定义特征并使用特征，简化学习问题的描述和执行方案
				常见模型
					感知机
						决策函数
							sign(w*x+b)
						极小化损失策略
							只计算误分类点
							-yi(w*xi+b)
						优化算法
							随机梯度下降算法（SGD）
							每次随机选取一个误分类点进行梯度下降
						收敛性
							训练数据线性可分时
								感知机学习算法才是收敛的
								存在无穷多个解
					kNN
						三个基本要素
							距离度量
								pL距离
									曼哈顿距离
										p=1
									欧氏距离
										p=2
									其他
										p>=3
							K值的选择
								K小，对噪音敏感，容易过拟合
									一般取较小的K，并采用交叉验证法选取最优的K值
								K大，容易受较远的点影响，导致预测发生错误
							分类决策规则
								kd树
									构造kd树
										是一棵二叉树
										每个结点对应于一个k维超矩形区域
										选择坐标轴，以中位数划分出两个超平面，不断重复
									搜索kd树
										寻找目标点所在的叶节点
										
								线性扫描
									性能低下，数据量大时不可行
					决策树
						基本步骤
							特征选择
								选择对训练数据有足够分类能力的特征
								指标
									信息增益
										信息增益值
											缺点
												熵过大时，信息增益值也会相对变大，不好评估
										信息增益比
											优点
												更准确评估
									熵
										随机程度大，熵就大
										熵越大，信息增益越小
										期望信息增益大，则熵要小
							决策树生成
								考虑局部最优
								常用算法
									ID3
									C4.5
									CART
							剪枝
								考虑全局最优
								提高泛化能力，降低过拟合
								常用算法
									CART
					SVM
						名称
							支持向量机
						作用
							二分类
						目标
							训练出一条边界函数，使得两个分类到边界的间隔之和最大化
						学习方法
							优化参数w和参数b
								参数通常是一个矩阵
							SMO算法
						常用技巧
							核方法
								特征空间的缩放
								或令分界更加明显
								或令计算更加简单
								或方便图形化数据
					条件随机场
						一种无向图模型
						应用
							自然语言文字或是生物序列
							分词、词性标注和命名实体识别等序列标注任务
					......
		作用
			处理海量数据的有效方法
			计算机智能化的有效手段
			计算机科学发展的一个重要组成部分
				系统
				计算
				信息（属于此部分）
		泛化
			过拟合
				训练集预测能力好，测试机预测能力差
				预防方案
					正则化
						添加正则化项，期望结构化风险最小
					交叉验证
						通过使用验证集预测，选择最优模型
			欠拟合
				训练不足
			泛化误差
				对未知数据预测的误差