西瓜书第三章线性模型学习笔记

360 阅读 0 评论 238 点赞

我是靠谱客的博主激情萝莉，这篇文章主要介绍西瓜书第三章线性模型学习笔记，现在分享给大家，希望可以做个参考。

经典线性模型

1.线性回归
性能度量：均方差（对应欧几里得距离）

2.对数几率回归：一种分类学习方法
对数几率函数：y=1/（1+e的-z次方），将z值转化俄日一个接近0或1的y值。
优点：直接对分类可能性建模，无须事先假设数据分布，可避免假设分布不准确带来的问题；可得到近似概率预测；可用于求解最优解。

3.线性判别分析(Linear Discriminant Analysis ，简称 LDA)
基本思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新的样本的类别。

4.多分类学习
基本思路：“拆解法”，将多分类任务拆为多个二分类任务求解。
拆分策略：
（1）“一对一” (One vs. One ，简称 OvO)，将N个类别两两配对。
（2）“一对其余” (One vs. Rest ，简称 OvR)，每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。
（3）“多对多” (Many vs. Many，简称 MvM)，每次将若干个类作为正类，若干个其他类作为反类。OvO和
OvR是MvM 的特例。

5.类别不平衡问题：分类任务中不同类别的训练样例数目差别很大
基本策略：“再缩放”
分类器决策规则：
（1）真实正反例可能性相同:若y/1-y > 1,预测为正例。
（2）正反例数目不同时，令m+表示正例数目，m-表示反例数目，若y/1+y > m+/m-，预测为正例。
三类做法：
（1）去除一些反例使得正反样例数目接近，然后再进行学习。
（2）增加正例。
（3）基于原始训练集学习，但在用训练好的分类器预测时，进行“阈值移动”：令y’/1-y’ = (y/1-y )* (m-/m+)