【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结

72 阅读 0 评论 48 点赞

我是靠谱客的博主义气西装，这篇文章主要介绍【王喆-推荐系统】评估篇-(task5)Replay和Interleaving评估学习总结，现在分享给大家，希望可以做个参考。

学习总结

（1）推荐系统的评估体系由传统离线评估、离线 Replay（在离线状态下对线上更新过程进行仿真，让整个评估过程“动”起来。）、线上 Interleaving，以及线上 A/B 测试四个层级组成——由下到上评估效率逐渐降低，但是评估的准确性逐渐升高，它们共同组成一个能够高效筛选候选模型的评估体系。

（2）【离线 Replay】借鉴了 Netflix 时光机的经验，这个时光机的数据流体系通过融合日志流和场景信息数据，生成天级别的数据快照，并对外提供统一的 API，供模型训练和评估使用，使用时就像做了一次时光旅行。

（3）【Interleaving 方法】三大要点：

它不进行用户分组；
它的实验推荐列表是通过间隔地选择模型 A 和模型 B 的推荐物品得到的；
为了保证它的公平性，我们要从模型 A 或者模型 B 中随机选择第一个物品，就像野球场选人一样完成推荐列表的生成。

（4） Interleaving 方法不能彻底替代传统 A/B 测试，在测试一些用户级别而不是模型级别的在线指标时，我们就不能用 Interleaving 方法。

【具体的指标】
比如用户的留存率，用户从试用到付费的转化率等，由于 Interleaving 方法同时使用了对照模型和实验模型的结果，我们就不清楚到底是哪个模型对这些结果产生了贡献。但是在测试 CTR、播放量、播放时长这些指标时，Interleaving 就可以通过累加物品效果得到它们。这个时候，它就能很好地替代传统的 A/B 测试了。