搜索、推荐业务中 - position bias的工业界、学术界发展历程 - 系列1(共计2)

550 阅读 0 评论 363 点赞

我是靠谱客的博主娇气秀发，最近开发中收集的这篇文章主要介绍搜索、推荐业务中 - position bias的工业界、学术界发展历程 - 系列1(共计2)，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

假设：人们通过自己的理解觉得位置因素对广告领域的ctr预估有很大的影响，也就是position bias

一些简单的实验：

1：眼球追踪的实验(paper1)

2：用户问卷调查

3：一些论文中还提出在成熟推荐业务中对小流量的推荐结果进行随机推送

1：将点击/不点击视为一种正负样本，具有严重偏见。常见情况下，展示的顺序对用户点击的地方具有很强的影响力。对于相关性上，这种偏见导致了不完整并且偏差的样本，从而导致模型学习会偏差。

2：其次，将点击视为“点击”和“已经展示但是没有点击”之间的区别是准确的，但它只能推表达出给出来的推荐结果的反馈，而没有一个顺序的记录。这再次导致一种严重偏差，学习用这些偏差数据训练的算法往往会逆转现有的顺序。除非使用额外的启发式方法。

3：人们使用概率点击模型模拟用户如何产生点击，模型可以同时考虑到位置和背景偏差。通过估计这些生成点击模型的参数，可以推断出给定文档对给定查询的相关性。然而，推断可靠的相关性判断通常需要一个查询词出现多次，这在许多检索设置中是不现实的（例如，个人收藏搜索）、尾部查询。

4：如果允许在线系统随机的将推荐结果进行排序，这种办法可以解决position bias，但是给用户带来很差的体验

一：解决position bias办法的发展历程

作者机构	cs.cornell.edu
时间	2002
论文名字	Optimizing Search Engines using Clickthrough Data(论文3)
观点	SVM方法，将position bias加到损失函数中去

作者机构	Microsoft
时间	2007
论文名字	Predicting Clicks: Estimating the Click-Through Rate for New Ads(论文4)
观点	提出位置模型解决position bias，p(click\| ad, pos) = p(click\| ad, pos,seen) * p(seen\| ad, pos)，贝叶斯方法，将位置看成是一种影响点击率的条件因素，将点击率描述为条件概率的形式

作者机构	Yahoo
时间	2008.4
论文名字	Online Learning from Click Data for Sponsored Search(论文5)
观点	将可信任的点击和非点击行为组成pair对，采用pair形式的训练方式

作者机构	微软
时间	2008
论文名字	An Experimental Comparison of Click Position-bias Models(论文6)
观点	级联模型(cascade model)

作者机构	Yahoo + usc.edu
时间	2008.12
论文名字	A Cascade Model for Externalities in Sponsored Search(论文7)
观点	级联模型

作者机构	雅虎
时间	2009.4
论文名字	A Dynamic Bayesian Network Click Model for Web Search Ranking(论文8)
观点	贝叶斯模型

作者机构	微软
时间	2012.8
论文名字	Position-Normalized Click Prediction in Search Advertising(论文9)
观点	概率因子模型

作者机构	华东师范大学
时间	2014.12
论文名字	一种无位置偏见的广告协同推荐算法(论文10)
观点	贝叶斯方法，利用页面-广告相关性来代替点击率(NPBCF)

结果：利用腾讯搜搜的数据，NPBCF比传统协同过滤，用F1度量算法效果，提高了40%

作者机构	美团
时间	2015.12
文章名字	美团推荐系统整体框架与关键工作(art1)
观点

作者机构	达观数据
时间	2016.1
文章名字	达观数据如何使用点击模型提高推荐、搜索、广告等大数据系统的算法精度的(art2)
观点

作者机构	cs.cornell.edu
时间	2017
论文名字	Unbiased Learning-to-Rank with Biased Feedback(论文11)
观点	倾向加权的经验风险最小化方法，Propensity SVM-Rank

作者机构	谷歌
时间	2018.2
论文名字	Position Bias Estimation for Unbiased Learning to Rank in Personal Search(论文12)
观点	提出来一种基于回归的期望最大化(EM)算法，提取可信任数据，即主动行为

3：方法的实验效果

　　这篇文章使用了谷歌的邮件和文件存储的搜索数据，采用了 2017 年 4 月两个星期的日志。数据大约有四百万个查询关键字，每个关键字大约有五个结果。作者们在这个数据集上验证了提出的方法能够更加有效地捕捉文档的偏差。利用了这种方法训练的排序模型比没有考虑偏差的模型要好出 1%～2%。

作者机构	Youtube
时间	2018.10
文章名字	看Youtube怎么利用深度学习做推荐(art3)
观点

作者机构	大众点评
时间	2019.2
文章名字	大众点评搜索基于知识图谱的深度学习排序实践(art4)
观点

大众点评的NN模型中，使用NDCG为优化函数，这个优化函数中，有“指数位置折损”参数，这个参数需要考虑到position bias

1：根据实际曝光点击率拟合折损曲线：根据实际统计到的曝光点击率数据，拟合公式替代 NDCG 中的指：数折损公式，绘制的曲线如图 12 所示。

2：计算 Position Bias 作为位置折损：Position Bias 在业界有较多的讨论，其中将用户点击商户的过程分为观察和点击两个步骤：a. 用户需要首先看到该商户，而看到商户的概率取决于所在的位置；b. 看到商户后点击商户的概率只与商户的相关性有关。步骤 a 计算的概率即为 Position Bias，这块内容可以讨论的东西很多，这里不再详述。

1：眼球追踪实验 http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=7DD46EA5004E012DF72C2CBBF3296869?doi=10.1.1.138.5410&rep=rep1&type=pdf

2：Unbiased Learning-to-Rank with Biased Feedback

https://arxiv.org/pdf/1608.04468.pdf

3：Optimizing Search Engines using Clickthrough Data

http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=039762E3503A01261B862054E18D626F?doi=10.1.1.12.3161&rep=rep1&type=pdf

4：Predicting Clicks: Estimating the Click-Through Rate for New Ads

https://www2007.org/papers/paper784.pdf

5：Online Learning from Click Data for Sponsored Search

http://wwwconference.org/www2008/papers/pdf/p227-ciaramitaA.pdf

6：An Experimental Comparison of Click Position-bias Models

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.112.1288&rep=rep1&type=pdf

7：A Cascade Model for Externalities in Sponsored Search

http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=365C3030DA6265978946886E9608CDEA?doi=10.1.1.218.9447&rep=rep1&type=pdf

8：A Dynamic Bayesian Network Click Model for Web Search Ranking

http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=04B2BE403FF195DD76DEC7EF64CD9A6A?doi=10.1.1.180.337&rep=rep1&type=pdf

9：Position-Normalized Click Prediction in Search Advertising

Position-Normalized Click Prediction in Search Advertising - PDF Free Download

10：一种无位置偏见的广告协同推荐算法

一种无位置偏见的广告协同推荐算法 - 中国知网

art1：美团推荐系统整体框架与关键工作

吆喝科技CTO的纯干货分享：直击A/BTest和美团推荐技术关键点！ - 知乎

美团推荐系统整体框架与关键工作_a936676463的专栏-CSDN博客_美团推荐系统

art2：达观数据如何使用点击模型提高推荐、搜索、广告等大数据系统的算法精度的

达观数据如何使用点击模型提高推荐、搜索、广告等大数据系统的算法精度的？ - 知乎

11：Unbiased Learning-to-Rank with Biased Feedback

https://arxiv.org/pdf/1608.04468.pdf

12：Position Bias Estimation for Unbiased Learning to Rank in Personal Search

http://delivery.acm.org/10.1145/3160000/3159732/p610-wang.pdf?ip=120.29.194.20&id=3159732&acc=OA&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E5945DC2EABF3343C&__acm__=1558952347_becf576c2f945a5abc298ef90e2a9275

http://www.cs.virginia.edu/~hw5x/Course/IR2017/_site/docs/Presentations/yj9xs.pdf

art3：看Youtube怎么利用深度学习做推荐

看Youtube怎么利用深度学习做推荐 - 知乎

art4：大众点评搜索基于知识图谱的深度学习排序实践

大众点评搜索基于知识图谱的深度学习排序实践-InfoQ