天猫大数据3—回归模型

336 阅读 0 评论 222 点赞

我是靠谱客的博主无奈乌龟，这篇文章主要介绍天猫大数据3—回归模型，现在分享给大家，希望可以做个参考。

进入第二季之后，开始熟悉第二季的平台，在延续了第一季的算法后，在大数据上约取得了4%的F1值，itemCF是在map-reduce下完成，统计模型是

基本在基于odps的sql操作表级下完成

之后转战回归模型

这里先回忆一下回归模型的基础：

谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.
当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：
z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）

之后按照sigmoid函数的形式求出：

σ(z) = 1 / (1+exp(z)) 。②

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。

那么LR分类器的这一组权值w0,w1,...,wm是如何求得的呢？这就需要涉及到极大似然估计MLE和优化算法的概念了。

我们将sigmoid函数看成样本数据的概率密度函数，每一个样本点，都可以通过上述的公式①和②计算出其概率密度

逻辑回归模型

考虑具有p个独立变量的向量,设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为

　　　　　　　　　（1.1）

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

clip_image008

其中。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有

（1.2）

　　定义不发生事件的条件概率为

（1.3）

那么，事件发生与事件不发生的概率之比为

（1.4）

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数，即得到线性函数，

　　　　　　（1.5），

极大似然函数

　　假设有n个观测样本，观测值分别为设为给定条件下得到yi=1（原文）的概率。在同样条件下得到yi=0（）的条件概率为。于是，得到一个观测值的概率为

(1.6) -----此公式实际上是综合前两个等式得出，并无特别之处

因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数，使上式取得最大值。

对上述函数求对数

（1.8）

上式称为对数似然函数。为了估计能使取得最大的参数的值。

之后我们结合自己选取的特征利用LP的方法进行处理，再融合了itenCF的方法

最后

以上就是无奈乌龟最近收集整理的关于天猫大数据3—回归模型的全部内容，更多相关天猫大数据3—回归模型内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(222)

本文分类：推荐系统&机器学习
浏览次数：336 次浏览
发布日期：2023-09-06 10:10:26

相关文章

阿里大数据竞赛(天猫推荐算法)

阿里大数据竞赛(天猫推荐算法)

美图t8怎么更新Android版本,美图手机M4的手机系统是什么？能升级安卓5.0吗？

美图t8怎么更新Android版本,美图手机M4的手机系统是什么？能升级安卓5.0吗？

绝了！美图技术专家获取肉鸡服务器密码如探囊取物

绝了！美图技术专家获取肉鸡服务器密码如探囊取物

新工科背景下大数据专业导论课程的改革与探索

新工科背景下大数据专业导论课程的改革与探索

天猫大数据3—回归模型

美图手机怎么投屏到电脑

支付宝双11的功臣-分布式关系型数据库（oceanbase）

支付宝双11的功臣-分布式关系型数据库（oceanbase）

基类使用私有数据_C++作业之多继承与虚基类

基类使用私有数据_C++作业之多继承与虚基类

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部