DeepFM模型学习总结作者：jliang

324 阅读 0 评论 214 点赞

我是靠谱客的博主爱听歌白云，这篇文章主要介绍DeepFM模型学习总结作者：jliang ，现在分享给大家，希望可以做个参考。

作者：jliang

https://blog.csdn.net/jliang3

1.重点归纳

1）CTR预估重点在于学习组合特征，包括二阶、三阶甚至更高阶，阶数越高越难学习。Google的论文研究结论：高阶和低阶的组合特征都非常重要，同时学习到这两种组合特征的性能比只考虑其中一种性能要好。

2）模型演进历史

（1）线性模型：LR、FTRL

无法提取高阶的组合特征，依赖人工的组合特征，表达能力有限。

（2）FM模型：通过隐向量latent vector做内积来表达组合特征，从理论上解决了低阶和高阶组合特定的提取问题。受限于计算复杂度，一般只考虑到2阶交叉特征。

（3）FFM模型：FM的升级版模型，通过引入field的概念，FFM把相同性质的特征归于同一个field。

（4）FNN：用FM模型来对Embedding层进行初始化的全连接神经网络（先预先训练好FM，得到隐向量，然后作为DNN的输入训练模型）。只能学习到高阶的组合特征，没有对低阶特征建模。

（5）PNN：为了捕获高阶组合特征，在embedding layer 和first hidden layer之间增加一个product layer（内积/外积层）来学习特征之间的交互关系。没有对于1阶和2阶特征进行建模。

（6）Wide&Deep：混合了一个线性模型(LR, Wide part)和Deep模型(DNN, Deep part)，这两部分模型需要不同的输入。wide part输入依赖人工特征工程。

（7）DeepFM：结合了广度和深度模型的优点，联合训练FM模型和DNN模型，同时学习低阶特征组合和高阶特征组合。

3）DeepFM优势

2.CTR预估

1） CTR数据特点

2）CTR预估重点在于学习组合特征，包括二阶、三阶甚至更高阶，阶数越高越难学习。Google的论文研究结论：高阶和低阶的组合特征都非常重要，同时学习到这两种组合特征的性能比只考虑其中一种性能要好。

3）模型演进历史

（1）线性模型

（2）FM模型

（3）FFM模型：FM的升级版模型，通过引入field的概念，FFM把相同性质的特征归于同一个field。

（4）深度学习

FNN
- 用FM模型来对Embedding层进行初始化的全连接神经网络（先预先训练好FM，得到隐向量，然后作为DNN的输入训练模型）
- 缺点
  - 受限于FM预训练的效果
  - 只能学习到高阶的组合特征，没有对低阶特征建模。
PNN
- 为了捕获高阶组合特征，在embedding layer 和first hidden layer之间增加一个product layer（内积/外积层）来学习特征之间的交互关系。
- 缺点
  - 内积外积计算复杂度高，采用近似计算的方法外积没有内积稳定
  - 和FNN一样，只能学习到高阶的特征组合，没有对于1阶和2阶特征进行建模
Wide&Deep
- 混合了一个线性模型(LR, Wide part)和Deep模型(DNN, Deep part)，这两部分模型需要不同的输入。
- 很大程度满足了模型同时学习低阶特征和高阶特征的需求
- Wide part需要领域知识进行特征工程，wide part输入依赖人工特征工程
这些模型偏向于提取低阶或者高阶的组合特征，不能同时提取这两种类型的特征。

3.DeepFM

1）DeepFM模型

（1）DeepFM结合了广度和深度模型的优点，联合训练FM模型和DNN模型，同时学习低阶特征组合和高阶特征组合。

（2）DeepFM模型的Deep component和FM component从Embedding层共享数据输入。

Embedding层的隐式向量在（残差反向传播）训练时可以同时接受到Deep component和FM component的信息，使Embedding层的信息表达更加准确而最终提升推荐效果。

（3）相对Wide&Deep的优势

（4）两面性

2）数学原理

（1）模型概览

（2）数学原理

（3）embedding layer（上图中的dense embeddings）

原始输入的数据是很多歌字段的高维稀疏数据，因此引入embedding layer将输入向量压缩到低维稠密向量
输入数据的每个字段（field）的特征（每个字段onehot后都是包含多个特征）经过embedding之后都变成k维，所以embedding后的特征数=count(field)*k
FM得到的隐变量V作为潜入层网络的权重，FM模型作为整个模型的一部分与其他深度学习模型一起参与整体的学习
FM部分与深度学习部分共享embedding的好处
- 从原始数据中同时学习了低维与高维特征
- 不再需要特征工程

（4）Field和Feature