我是靠谱客的博主 失眠发箍,最近开发中收集的这篇文章主要介绍机器学习(西瓜书) 第3章 线性模型笔记第3章 线性模型,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • 第3章 线性模型
    • 3.1 基本形式
    • 3.2 广义线性模型
    • 3.3 线性回归
      • 3.3.1 对数线性回归
      • 3.3.2 对数几率回归
      • 3.3.3 线性判别分析
    • 3.4 多分类学习
      • 3.4.1 OvO
      • 3.4.2 OvR
      • 3.4.3 MvM
    • 3.5 类别不平衡问题
    • 3.6 阅读材料
      • 3.6.1 稀疏表示
      • 3.6.2 代价敏感
      • 3.6.3 多标记学习

第3章 线性模型

线性模型(Linear Model)是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型构造非线性模型(Nonlinear Model)。
线 性 模 型 → 高 维 映 射 层 级 结 构 非 线 性 模 型 线性模型xrightarrow[高维映射]{层级结构}非线性模型 线 线


3.1 基本形式

f ( x ) = w 1 x 1 + w 2 x 2 + … + w d x d + b = w T x + b w 和 b 确定,模型确定。 f(boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+ldots+w_{d} x_{d}+b \ =boldsymbol{w}^{mathrm{T}} boldsymbol{x}+boldsymbol{b} \ boldsymbol{w}和boldsymbol{b}text{确定,模型确定。} f(x)=w1x1+w2x2++wdxd+b=wTx+bwb确定,模型确定。


3.2 广义线性模型

更一般地,考虑单调可微函数 g ( ⋅ ) , 令 y = g − 1 ( w T x + b ) text{更一般地,考虑单调可微函数}g(cdot),令 \ y = g^{-1}left(boldsymbol{w}^{mathrm{T}} boldsymbol{x}+bright) 更一般地,考虑单调可微函数g()y=g1(wTx+b)

其中函数 g ( ⋅ ) g(cdot) g()称为联系函数。根据不同的 g ( ⋅ ) g(cdot) g(),构造不同的非线性模型。


3.3 线性回归

f ( x i ) = w x i + b ,使得 f ( x i ) ≃ y i fleft(x_{i}right)=w x_{i}+btext{,使得}fleft(x_{i}right) simeq y_{i} f(xi)=wxi+b,使得f(xi)yi

样本由d个属性描述,我们试图获取样本的类别 y i y_{i} yi,这称为多元线性回归(Multivariate Linear Regression)。

衡量的方法为均方误差(Square Loss),对应欧氏距离( L 2 L_2 L2范式)。

采用最小二乘法(Least Square Method),求得 w 和 b boldsymbol{w}和boldsymbol{b} wb


$$ hat{boldsymbol{w}}^{*}=left(mathbf{X}^{mathrm{T}} mathbf{X}right)^{-1} mathbf{X}^{mathrm{T}} boldsymbol{y} \ fleft(hat{boldsymbol{x}}_{i}right)=hat{boldsymbol{x}}_{i}^{mathrm{T}}left(mathbf{X}^{mathrm{T}} mathbf{X}right)^{-1} mathbf{X}^{mathrm{T}} boldsymbol{y} $$ 由于$mathbf{X}^{mathrm{T}} mathbf{X}$通常不是满秩矩阵,可解出多个的$hat{boldsymbol{w}}^{*}$,引入**正则化**(Regularization)项,决定**学习算法的归纳偏好**。

3.3.1 对数线性回归

输出标记在指数尺度上变化

y = 1 1 + e − z = 1 1 + e − ( w T x + b ) ln ⁡ y 1 − y = w T x + b y=frac{1}{1+e^{-z}}=frac{1}{1+e^{-left(w^{mathrm{T}} x+bright)}} \ ln frac{y}{1-y}=boldsymbol{w}^{mathrm{T}} boldsymbol{x}+b y=1+ez1=1+e(wTx+b)1ln1yy=wTx+b
若将y视为样本x作为正例的可能性,则1-y是其反例的可能性,而二者比值 y 1 − y frac{y}{1-y} 1yy称为几率(odds),取对数则得到对数几率 ln ⁡ y 1 − y ln frac{y}{1-y} ln1yy(log odds,logit)。

将y视为后验概率估计 p ( y = 1 ∣ x ) p(y=1 | x) p(y=1x),再通过极大似然法(Maximum Likelihood Method)
ℓ ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; w , b ) ell(boldsymbol{w}, b)=sum_{i=1}^{m} ln pleft(y_{i} | boldsymbol{x}_{i} ; boldsymbol{w}, bright) (w,b)=i=1mlnp(yixi;w,b)
这是个高阶可导连续凸函数,可以使用经典数值优化算法:梯度下降法(Gradient Descent Method),牛顿法(Newton Method)等求其最优解。


3.3.2 对数几率回归


3.3.3 线性判别分析


3.4 多分类学习

3.4.1 OvO


3.4.2 OvR


3.4.3 MvM

最常用MvM技术:纠错验证码(Error Correcting Output Codes, EOC)。


3.5 类别不平衡问题


3.6 阅读材料

3.6.1 稀疏表示


3.6.2 代价敏感


3.6.3 多标记学习


最后

以上就是失眠发箍为你收集整理的机器学习(西瓜书) 第3章 线性模型笔记第3章 线性模型的全部内容,希望文章能够帮你解决机器学习(西瓜书) 第3章 线性模型笔记第3章 线性模型所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(71)

评论列表共有 0 条评论

立即
投稿
返回
顶部