我是靠谱客的博主 务实母鸡,最近开发中收集的这篇文章主要介绍GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

解决的问题

当前CTR预估模型中一般都有embedding和MLP组件,我们提出一个新的GateNet模型,通过引入feature embedding gate来学习特征级别的潜在信息,而hidden gate帮助模型更好地习得高阶交互特征。

feature embedding gate

在CTR模型中稀疏的输入层和embedding层有着广泛的应用。输入层对原始输入特征进行稀疏表示,embedding层再将稀疏特征表示成低维度的稠密向量。embedding层的输出是一个拼接起来的embedding向量:
E = [ e 1 , e 2 , . . . , e i , . . . , e f ] E = [e_1, e_2, ..., e_i, ..., e_f] E=[e1,e2,...,ei,...,ef]其中 f f f表示field的个数, e i ∈ R k e_i in R^k eiRk表示第 i i i个field的embedding, k k k是embedding层的维度。
在本文中,我们提出了一个feature embedding gate来选择重要的潜在信息。首先,对于每个field embedding e i e_i ei,我们计算出能够表示特征维度重要性的gate值:
g i = σ ( W i ⋅ e i ) g_i = sigma(W_i cdot e_i) gi=σ(Wiei)其中 σ sigma σ是门的激活函数, e i ∈ R k e_i in R^k eiRk是原始embedding, W i W_i Wi是第 i i i个门学到的权重参数,全部的参数可以表示为 W = [ W 1 , . . . , W i , . . . , W f ] W = [W_1, ..., W_i, ..., W_f] W=[W1,...,Wi,...,Wf]
然后,我们将gate值与原始embedding做element-wise乘积:
g e i = e i ⊙ g i ge_i = e_i odot g_i gei=eigi最后,我们将所有gate-aware embedding拼接到一起,就得到了gated feature embedding:
G E = [ g e 1 , g e 2 , . . . , g e i , . . . , g e f ] GE = [ge_1, ge_2, ..., ge_i, ..., ge_f] GE=[ge1,ge2,...,gei,...,gef]
我们将本文提出的门成为bit-wise门,而通常的门称为vector-wise门。二者的区别如图所示。

hidden gate

排序模型的deep部分通常由几层全连接组成,以隐式地获取特征交叉信息。在我们的模型中,深度网络的输入是embedding层的输出:
a ( 0 ) = [ g e 1 , . . . , g e i , . . . , g e f ] a^{(0)} = [ge_1, ..., ge_i, ..., ge_f] a(0)=[ge1,...,gei,...,gef]然后 a ( 0 ) a^{(0)} a(0)被喂给MLP:
a l = σ ( W ( l ) a ( l − 1 ) + b ( l ) ) a^l = sigma(W^{(l)}a^{(l-1)} + b^{(l)}) al=σ(W(l)a(l1)+b(l))其中 l l l是网络层数, σ sigma σ是激活函数。
与bit-wise feature embedding gate类似,我们提出的hidden gate如下所示:
g ( l ) = a ( l ) ⊙ σ g ( W g ( l ) a ( l ) ) g^{(l)} = a^{(l)} odot sigma_g(W_g^{(l)}a^{(l)}) g(l)=a(l)σg(Wg(l)a(l))其中 ⊙ odot 依旧表示element-wise乘法。之后损失函数与普通分类的损失函数没有区别。

实验

实验部分我们用了3个数据集:1) Criteo,一个包含4500w点击log的数据集;2) ICME,数据集中包含几天的短视频点击数据;3) SafeDriver,用来预测一个汽车保险持有人会不会提出索赔;我们用AUC作为评估指标,baseline包括FM, DNN, DeepFM和XDeepFM
加了feature embedding gate的实验效果如下表:

各field间参数独立和共享的实验结果如下所示:

不同embedding gate机制(bit-wise和vector-wise)的实验结果如下所示:

hidden gate的实验结果如下所示:

两种机制结合的实验结果如下所示:

调参实验结果参见论文原文。

最后

以上就是务实母鸡为你收集整理的GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction的全部内容,希望文章能够帮你解决GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(32)

评论列表共有 0 条评论

立即
投稿
返回
顶部