概述
文章目录
- 第3章 线性模型
- 3.1 基本形式
- 3.2 广义线性模型
- 3.3 线性回归
- 3.3.1 对数线性回归
- 3.3.2 对数几率回归
- 3.3.3 线性判别分析
- 3.4 多分类学习
- 3.4.1 OvO
- 3.4.2 OvR
- 3.4.3 MvM
- 3.5 类别不平衡问题
- 3.6 阅读材料
- 3.6.1 稀疏表示
- 3.6.2 代价敏感
- 3.6.3 多标记学习
第3章 线性模型
线性模型(Linear Model)是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型构造非线性模型(Nonlinear Model)。
线
性
模
型
→
高
维
映
射
层
级
结
构
非
线
性
模
型
线性模型xrightarrow[高维映射]{层级结构}非线性模型
线性模型层级结构高维映射非线性模型
3.1 基本形式
f ( x ) = w 1 x 1 + w 2 x 2 + … + w d x d + b = w T x + b w 和 b 确定,模型确定。 f(boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+ldots+w_{d} x_{d}+b \ =boldsymbol{w}^{mathrm{T}} boldsymbol{x}+boldsymbol{b} \ boldsymbol{w}和boldsymbol{b}text{确定,模型确定。} f(x)=w1x1+w2x2+…+wdxd+b=wTx+bw和b确定,模型确定。
3.2 广义线性模型
更一般地,考虑单调可微函数 g ( ⋅ ) , 令 y = g − 1 ( w T x + b ) text{更一般地,考虑单调可微函数}g(cdot),令 \ y = g^{-1}left(boldsymbol{w}^{mathrm{T}} boldsymbol{x}+bright) 更一般地,考虑单调可微函数g(⋅),令y=g−1(wTx+b)
其中函数 g ( ⋅ ) g(cdot) g(⋅)称为联系函数。根据不同的 g ( ⋅ ) g(cdot) g(⋅),构造不同的非线性模型。
3.3 线性回归
f ( x i ) = w x i + b ,使得 f ( x i ) ≃ y i fleft(x_{i}right)=w x_{i}+btext{,使得}fleft(x_{i}right) simeq y_{i} f(xi)=wxi+b,使得f(xi)≃yi
样本由d个属性描述,我们试图获取样本的类别 y i y_{i} yi,这称为多元线性回归(Multivariate Linear Regression)。
衡量的方法为均方误差(Square Loss),对应欧氏距离( L 2 L_2 L2范式)。
采用最小二乘法(Least Square Method),求得 w 和 b boldsymbol{w}和boldsymbol{b} w和b。
$$ hat{boldsymbol{w}}^{*}=left(mathbf{X}^{mathrm{T}} mathbf{X}right)^{-1} mathbf{X}^{mathrm{T}} boldsymbol{y} \ fleft(hat{boldsymbol{x}}_{i}right)=hat{boldsymbol{x}}_{i}^{mathrm{T}}left(mathbf{X}^{mathrm{T}} mathbf{X}right)^{-1} mathbf{X}^{mathrm{T}} boldsymbol{y} $$ 由于$mathbf{X}^{mathrm{T}} mathbf{X}$通常不是满秩矩阵,可解出多个的$hat{boldsymbol{w}}^{*}$,引入**正则化**(Regularization)项,决定**学习算法的归纳偏好**。
3.3.1 对数线性回归
输出标记在指数尺度上变化
y
=
1
1
+
e
−
z
=
1
1
+
e
−
(
w
T
x
+
b
)
ln
y
1
−
y
=
w
T
x
+
b
y=frac{1}{1+e^{-z}}=frac{1}{1+e^{-left(w^{mathrm{T}} x+bright)}} \ ln frac{y}{1-y}=boldsymbol{w}^{mathrm{T}} boldsymbol{x}+b
y=1+e−z1=1+e−(wTx+b)1ln1−yy=wTx+b
若将y视为样本x作为正例的可能性,则1-y是其反例的可能性,而二者比值
y
1
−
y
frac{y}{1-y}
1−yy称为几率(odds),取对数则得到对数几率
ln
y
1
−
y
ln frac{y}{1-y}
ln1−yy(log odds,logit)。
将y视为后验概率估计
p
(
y
=
1
∣
x
)
p(y=1 | x)
p(y=1∣x),再通过极大似然法(Maximum Likelihood Method)
ℓ
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
i
;
w
,
b
)
ell(boldsymbol{w}, b)=sum_{i=1}^{m} ln pleft(y_{i} | boldsymbol{x}_{i} ; boldsymbol{w}, bright)
ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b)
这是个高阶可导连续凸函数,可以使用经典数值优化算法:梯度下降法(Gradient Descent Method),牛顿法(Newton Method)等求其最优解。
3.3.2 对数几率回归
3.3.3 线性判别分析
3.4 多分类学习
3.4.1 OvO
3.4.2 OvR
3.4.3 MvM
最常用MvM技术:纠错验证码(Error Correcting Output Codes, EOC)。
3.5 类别不平衡问题
3.6 阅读材料
3.6.1 稀疏表示
3.6.2 代价敏感
3.6.3 多标记学习
最后
以上就是失眠发箍为你收集整理的机器学习(西瓜书) 第3章 线性模型笔记第3章 线性模型的全部内容,希望文章能够帮你解决机器学习(西瓜书) 第3章 线性模型笔记第3章 线性模型所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复