我是靠谱客的博主 义气西装,最近开发中收集的这篇文章主要介绍【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

学习总结

(1)推荐系统的评估体系由传统离线评估、离线 Replay(在离线状态下对线上更新过程进行仿真,让整个评估过程“动”起来。)、线上 Interleaving,以及线上 A/B 测试四个层级组成——由下到上评估效率逐渐降低,但是评估的准确性逐渐升高,它们共同组成一个能够高效筛选候选模型的评估体系。

(2)【离线 Replay】借鉴了 Netflix 时光机的经验,这个时光机的数据流体系通过融合日志流和场景信息数据,生成天级别的数据快照,并对外提供统一的 API,供模型训练和评估使用,使用时就像做了一次时光旅行。

(3)【Interleaving 方法】三大要点:

  • 它不进行用户分组;
  • 它的实验推荐列表是通过间隔地选择模型 A 和模型 B 的推荐物品得到的;
  • 为了保证它的公平性,我们要从模型 A 或者模型 B 中随机选择第一个物品,就像野球场选人一样完成推荐列表的生成。

(4) Interleaving 方法不能彻底替代传统 A/B 测试,在测试一些用户级别而不是模型级别的在线指标时,我们就不能用 Interleaving 方法。

【具体的指标】
比如用户的留存率,用户从试用到付费的转化率等,由于 Interleaving 方法同时使用了对照模型和实验模型的结果,我们就不清楚到底是哪个模型对这些结果产生了贡献。但是在测试 CTR、播放量、播放时长这些指标时,Interleaving 就可以通过累加物品效果得到它们。这个时候,它就能很好地替代传统的 A/B 测试了。

最后

以上就是义气西装为你收集整理的【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结的全部内容,希望文章能够帮你解决【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(34)

评论列表共有 0 条评论

立即
投稿
返回
顶部