CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

50 阅读 0 评论 33 点赞

我是靠谱客的博主谦让信封，这篇文章主要介绍CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读，现在分享给大家，希望可以做个参考。

之前的文章讲解了DIEN模型：CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例，而这篇文章要讲的是DSIN模型，它与DIEN一样都从用户历史行为中抽取兴趣表示，但不同的是DSIN把历史行为划分成了不同的Session，并且使用Transformer对每个Session内的行为抽取特征。

模型解读

整体模型的结构如下：

在这里插入图片描述

首先看看右下部分的矩形区域，这部分主要是对用户的行为序列建模，其中包含了4个子模块。

1. Session Divsion Layer

从下往上看的话，最底层的粉色区域是Session分割层：

在这里插入图片描述

首先是把用户的行为序列 $S={b_1, b_2, ... B_N}$ 划分成K个Session会话 $Q_1, Q_2, ... Q_K$ ，不同的Session直接的间隔大于30分钟，同一Session内的序列 ${b_1, b_2, ..., b_T}$ 的间隔小于30分钟。

2. Session Interest Extractor Layer

得到K个Session后，输入到黄色的Session兴趣抽取层，最终得到K个Session的兴趣表示：

在这里插入图片描述

这一层把每个Session的序列数据 $Q_k$ 和对应的 bias encoding 结合起来，通过Transformer的 Multi-head Self-Attention机制提取Session内部行为之间的联系，进而得到Session对应的兴趣表示 $I_k$ 。

2.1 bias encoding

首先，这个 bias encoding 是怎么回事？

为了刻画不同Session中不同物品的顺序关系，引入了 bias encoding ：
$BE_{(k,t,c)} = w_k^K + w_t^T + w_c^C$
$BE_{(k,t,c)}$ 表示第k个session中第t个物品的embedding向量的第c个位置的偏置项，于是输入到 Self-attention 中的数据为：
$Q = Q + B E$
其中，Q 包含了 $Q_1, Q_2, ... , Q_K$ 。

2.2 Multi-head Self Attention

然后就是每个Session的数据输入到 Transformer 中：

在这里插入图片描述

对于输入的数据，首先进入的是 Multi-head Self-Attention，不同 head 学习到的 Attention 可能有所不同，这好比是用户对商品的注意力头可能放在颜色，款式，价格等不同因素上。假设要使用 H 个 head，那么作者把 $Q_k$ 中每个物品的embedding平分成了H份： $Q_k = [Q_{k1}, Q_{k2}, ..., Q_{kH}]$ ，其中 $Q_{kh} in mathbb{R}^{T times d_h}, d_h = frac{1}{H} d_{model}$ , 然后就是计算每个 head 的 attention:
$}_{h} &=text { Attention }left(mathbf{Q}_{k h} mathbf{W}^{Q}, mathbf{Q}_{k h} mathbf{W}^{K}, mathbf{Q}_{k h} mathbf{W}^{V}right) \ &=operatorname{softmax}left(frac{mathbf{Q}_{k h} mathbf{W}^{Q} mathbf{W}^{K^{T}} mathbf{Q}_{k h}^{T}}{sqrt{d_{text {model }}}}right) mathbf{Q}_{k h} mathbf{W}^{V} end{aligned}$
其中 $W^Q, W^K, W^V$ 是线性变换矩阵，是模型需要学习的参数。然后将 $Q_k$ 所有的 head 拼接到一起，然后经过 Add & Norm 层(残差连接与层归一化)，输入到前馈神经网络中：
$I_k^Q = FFN(Concat(head_1, head_2, ..., head_H)W^o)$
然后再经过一个 Add & Norm 层。需要注意的是， $I_k^Q$ 仍然是 $d_{model}$ 的大小，于是可以使用一个平均值池化把每个Session的序列转为 $d_{model}$ 维向量：
$I_k = Avg(I_k^Q)$

3. Session Interest Interacting Layer

得到了K个Session的兴趣表示 $I_1, I_2, ..., I_K$ 后，还需要输入到 Bi-LSTM 中捕获不同Session间的演变过程：

在这里插入图片描述

最终每个时刻的输出为：
$H_t = Concat (h_{ft}, h_{bt})$
其中 $h_{ft}, h_{bt}$ 是前向LSTM的隐藏状态和反向LSTM的隐藏状态。

4. Session Interest Activating Layer

经过上面的步骤，得到了两种 Session表示： $I_1, I_2, ..., I_K$ 以及 $H_1, H_2, ... , H_K$ ，接下来就可以分别和目标商品计算相似度了，如下图的紫色部分所示：

在这里插入图片描述

其中的 Activation Unit 结构如下图所示：

在这里插入图片描述

左边的输入是目标物品的 embedding，右边的两个输入都是Session表示，这个注意力单元可以给不同的 Session 分配不同的权重，用来表示某个 Session 和目标物品的相关性，进而可以对各个 Session 进行加权求和：
$a_{k}^{I} &=frac{left.exp left(mathbf{I}_{k} mathbf{W}^{I} mathbf{X}^{I}right)right)}{sum_{k}^{K} exp left(mathbf{I}_{k} mathbf{W}^{I} mathbf{X}^{I}right)} \ mathbf{U}^{I} &=sum_{k} a_{k}^{I} mathbf{I}_{k} end{aligned}$

$a_{k}^{H} &=frac{left.exp left(mathbf{H}_{k} mathbf{W}^{H} mathbf{X}^{I}right)right)}{sum_{k}^{K} exp left(mathbf{H}_{k} mathbf{W}^{H} mathbf{X}^{I}right)} \ mathbf{U}^{H} &=sum_{k}^{K} a_{k}^{H} mathbf{H}_{k} end{aligned}$