概述
说到cvr延迟预估,不得不提开山之作“Modeling Delayed Feedback in Display Advertising”,本文从这篇经典论文入手,对cvr预估中遇到的订单延迟问题的背景、影响及解决方案进行了详细讲解。
本文关键内容总结如下:
1.CVR建模拆解:将cvr预估拆分为两个模型,转化模型(conversion model,CVR)和订单延迟模型(Delayed Feedback Model,DFM)。CVR模型用户预估用户最终是否发生转化,DFM则预估点击后第几天发生转化。
2. DFM的优化思路:假设转化延迟时间服从指数分布
3.模型训练及预估:CVR和DFM联合训练,采用EM算法或sgd-Joint Learning等方法。在线预估时,只使用CVR模型,DFM被舍弃。
1.背景
展示广告中,oCPX/CPA模式(eCPM=pCTR * pCVR * CPA)下pcvr预估的准确性至关重要。
在参考ctr模型优化经验优化cvr模型时,会遇到一个问题,与点击(相比曝光)发生时间相比,转化发生时间要晚的多,很多时候转化事件会发生在广告被点击的几天(甚至一周)后。
转化延迟会对模型的训练产生负向的影响,通常简单的做法,就是预先设定好转化归因的时间窗口(例如15天),并且cvr模型只使用已归因完全(已超过归因时间窗口)的数据进行模型训练(例如,只使用15天之前的数据)。这种情况下,归因时间窗口的设定就变得尤为关键:
1) 归因时间窗口太短,一些样本将被错误的标记成负样本,但未来将完成转化,从而干扰模型学习到了错误标签;
2) 归因时间窗口过长,则,模型无法及时捕获到更新的广告、新发生的用户行为(含转化)等信号,存在模型过时的风险;
2.相关数据
2.1 转化延迟,
作者提供的数据中2天可以归因约50%左右的订单,相比较曝光-点击延迟,1小时内就可以有95.5%的点击归因。
相比大部分实际业务场景,论文中的转化延迟算是比较长的,例如,很多实际业务场景中t+1天就可以归因90%+的转化,所以cvr模型天级别更新情况下也没有特别大问题。
但论文作者的延迟情况在很多场景中也是存在的,笔者还了解到甚至部分电商场景的延迟比论文中延迟还高(7天归因50%左右订单),所以,在这种场合下,cvr延迟模型的必要性不言而喻。
2.2 广告更新频率
论文对广告的更新频率进行了统计分析,从某一天的广告作为base,统计随着时间增加新增广告的占比。累积26天后,新广告的占比为11.3%。
在实际业务场景下,笔者了解到很多广告的更新频率比论文中的11.3%还高。
这就说明了,归因时间窗口过长,时间窗口的数据无法及时应用到模型中,将会对新广告带来非常大的影响。
3.解决思路
3.1 数据方面:
忽略转化归因时间窗口,当点击后已发生转化,标记为正样本,否则被标记为unlabeled(因为,未发生转化的,但将来可能会发生)
3.2 模型方面:
采用两个模型进行cvr预估:
Conversion Model,用来预估最终是否转化。
Delayed Feedback Model,预估点击后第几天发生转化。
这一模型和生存分析中使用的模型有很大相关性。类似的,对转化问题来说,一些样本是censored(删失的),即在训练时间内无转化,而后续可能有转化。这种情况下,删失样本的转化延迟至少大于从点击开始的流逝时间。
4. CVR模型建模
因内容格式调整比较复杂,请大家移步微信公众号(ai_one_piece)阅读内容细节,如下:
转化率预估(pCVR)系列--延迟预估模型(上篇)mp.weixin.qq.com更新广告/推荐算法,请关注公众号"ai_one_piece"。
最后
以上就是俭朴战斗机为你收集整理的点击延迟_转化率预估(pCVR)系列--延迟预估模型(上篇)的全部内容,希望文章能够帮你解决点击延迟_转化率预估(pCVR)系列--延迟预估模型(上篇)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复