我是靠谱客的博主 义气西装,最近开发中收集的这篇文章主要介绍【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
学习总结
(1)推荐系统的评估体系由传统离线评估、离线 Replay(在离线状态下对线上更新过程进行仿真,让整个评估过程“动”起来。)、线上 Interleaving,以及线上 A/B 测试四个层级组成——由下到上评估效率逐渐降低,但是评估的准确性逐渐升高,它们共同组成一个能够高效筛选候选模型的评估体系。
(2)【离线 Replay】借鉴了 Netflix 时光机的经验,这个时光机的数据流体系通过融合日志流和场景信息数据,生成天级别的数据快照,并对外提供统一的 API,供模型训练和评估使用,使用时就像做了一次时光旅行。
(3)【Interleaving 方法】三大要点:
- 它不进行用户分组;
- 它的实验推荐列表是通过间隔地选择模型 A 和模型 B 的推荐物品得到的;
- 为了保证它的公平性,我们要从模型 A 或者模型 B 中随机选择第一个物品,就像野球场选人一样完成推荐列表的生成。
(4) Interleaving 方法不能彻底替代传统 A/B 测试,在测试一些用户级别而不是模型级别的在线指标时,我们就不能用 Interleaving 方法。
【具体的指标】
比如用户的留存率,用户从试用到付费的转化率等,由于 Interleaving 方法同时使用了对照模型和实验模型的结果,我们就不清楚到底是哪个模型对这些结果产生了贡献。但是在测试 CTR、播放量、播放时长这些指标时,Interleaving 就可以通过累加物品效果得到它们。这个时候,它就能很好地替代传统的 A/B 测试了。
最后
以上就是义气西装为你收集整理的【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结的全部内容,希望文章能够帮你解决【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复