概述
Task 4
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,
学习链接
项目地址
比赛地址
一、学习大纲
1.逻辑回归模型
2.树模型
3.集成模型
4.模型对比与性能评估
5.模型调参
二、学习内容
1.逻辑回归模型
逻辑回归是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测。
1)sigmoid函数
2)判定边界
判定边界是用以对不同类别的数据分割的边界,边界的两旁应该是不同类别的数据。
3)代价函数与梯度下降
- 所谓的代价函数Cost Function,其实是一种衡量我们在这组参数下预估的结果和实际结果差距的函数,比如说线性回归的代价函数定义为:
- 梯度下降,梯度下降算法是调整参数θ使得代价函数J(θ)取得最小值的最基本方法之一。从直观上理解,就是我们在碗状结构的凸函数上取一个初始值,然后挪动这个值一步步靠近最低点的过程,如下图所示:
4)逻辑回归模型的优缺点
-
优点:
(1)训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;
(2)简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;
(3)适合二分类问题,不需要缩放输入特征;
(4)内存资源占用小,因为只需要存储各个维度的特征值; -
缺点:
(1)不能用Logistic回归去解决非线性问题,因为Logistic的决策面试线性的;
(2)对多重共线性数据较为敏感;
(3)很难处理数据不平衡的问题;
(4)准确率并不是很高,因为形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布;
(5)逻辑回归本身无法筛选特征,有时会用gbdt来筛选特征,然后再上逻辑回归
2.树模型
决策树(decision tree)是一种基本的分类与回归方法。
1)使用决策树做预测需要以下过程:
- 收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从媒婆那里,或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。
- 准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。
- 分析数据:可以使用任何方法,决策树构造完成之后,我们可以检查决策树图形是否符合预期。
- 训练算法:这个过程也就是构造决策树,同样也可以说是决策树学习,就是构造一个决策树的数据结构。
- 测试算法:使用经验树计算错误率。当错误率达到了可接收范围,这个决策树就可以投放使用了。
- 使用算法:此步骤可以使用适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。
2)树模型的优缺点
- 优点
(1)需要准备的数据量不大。
( 2)算法时间的复杂度是用于训练决策树的数据点的对数。
(3)能够处理数值型和类别型数据。
( 4)相对对神经网络,解释性比较强。 - 缺点
有的规则不具备可解释性、抗干扰能力弱、最优决策划分是NP难问题、对数据不均衡类别倾向数据多的类别。
3.集成模型
1)随机森林模型
- RF工作原理
建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。
-随机森林的预测错误率
随机森林的预测错误率取决于以下两点:
- 森林中任意两棵树之间的相关性,相关性越高,错误率越大
- 每棵树的分类能力,单棵树的分类能力越强,那么整个森林的分类能力也越强
-随机森林模型的优缺点
- 优点
(1)准确率高运行起来高效(树之间可以并行训练)
(2)不用降维也可以处理高维特征
(3)给出了度量特征重要性的方法
(4)建树过程中内部使用无偏估计
(5)有很好的处理缺失值的算法
(6)对于类别不平衡数据能够平衡误差
(7)能够度量样本之间的相似性,并基于这种相似性对于样本进行聚类和筛选异常值
(8)提出了一种衡量特征交互性的经验方法(数据中存在冗余特征时能很好的处理)
(9)可以被扩展到无监督学习
(10)产生的模型可以被应用到其他数据上 - 缺点
(1)黑盒,不可解释性强,多个随机导致了非常好的效果
(2)在某些噪声较大的分类和回归问题上会过拟合
(3)模型会非常大,越准确意味着越多的数
2)XGBoost模型
Xgboost 的全称是eXtreme Gradient Boosting。
- XGBoost算法是采用分步前向加性模型,只不过在每次迭代中生成弱学习器后不再需要计算一个系数,XGBoost 是由 k 个基模型组成的一个加法运算式。
- XGBoost算法通过优化结构化损失函数(加入了正则项的损失函数,可以起到降低过拟合的风险)来实现弱学习器的生成,并且XGBoost算法没有采用搜索方法,而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、加权分位数等技术来大大提高了算法的性能。
3)LightGBM模型
-LightGBM的优点
(1)更快的训练效率
(2)低内存使用
(3)更高的准确率
(4)支持并行化学习
(5)可处理大规模数据
(6)原生支持类别特征,不需要对类别特征再进行0-1编码这类的
4)Catboost模型
-类别型特征
Catboost引入了两个关键的算法改进——实现了有序提升,排列驱动以代替经典算法和用于处理分类特征的创新算法。这些方法旨在解决prediction shift(普遍存在于梯度提升算法中)。
-Greedy TS
-Holdout TS
-Leave-one-out TS
- Ordered TS
-解决预测偏移
4.模型对比与性能评估
1)常用模型评估方法
1.线性相关系数(皮尔逊相关系数)(用于描述两个变量之间相关性的强弱,系数越大相关性越强)
2.决定系数(用于描述非线性或两个以上自变量的相关关系,也可用于评价模型效果)(R^2对变量进行线性回归后,评价拟合优度,越大越好,如R^2=0.8,则表明x对y的影响占比80%以上)
3.混淆矩阵(用于二分类问题模型评估)
4.ROC曲线&AUC面积(对模型整体效力做评估)
5.KS 曲线(用于判别模型的最优划分概率,只看最大的一个)
6.轮廓系数(第二个用于聚类模型有效性判断的方法,第一个是SSE)
7.收益曲线(也是用于寻找最佳阈值)
2)模型评价结果
- 模型的泛化性能是由学习算法的能力,数据的充分性及学习任务本身的难度所决定的,良好的泛化性能代表了较小的偏差,即算法的期望预测结果与真实结果的偏离程度,同时还要有较小的方差,即随训练样本的变化算法本身的学习能力变化不大。
5.模型调参
1)贪心算法
-概念
所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,它所做出的仅仅是在某种意义上的局部最优解。
-思路
- 建立数学模型来描述问题
- 把求解的问题分成若干个子问题
- 对每个子问题求解,得到子问题的局部最优解
- 把子问题的解局部最优解合成原来问题的一个解
2)网格调参
-概念
一种调参的方法,当你算法模型效果不是很好时,可以通过该方法来调整参数,通过循环遍历,尝试每一种参数组合,返回最好的得分值的参数组合。每个参数都能组合在一起,循环过程就像是在网格中遍历,所以叫网格搜索。
-方法
把数据集划分三份,一份是训练集(训练数据),一份是验证集(调整参数),一份是测试集(测试模型)。
为了防止模型过拟合,我们使用交叉验证的方法。
3)贝叶斯调参
-概念
贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。
超参数的评估代价很大,因为它要求使用待评估的超参数训练一遍模型,而许多深度学习模型动则几个小时几天才能完成训练,并评估模型,因此耗费巨大。贝叶斯调参发使用不断更新的概率模型,通过推断过去的结果来“集中”有希望的超参数。
-贝叶斯优化问题有四个部分:
目标函数:我们想要最小化的内容,在这里,目标函数是机器学习模型使用该组超参数在验证集上的损失。
域空间:要搜索的超参数的取值范围
优化算法:构造替代函数并选择下一个超参数值进行评估的方法。
结果历史记录:来自目标函数评估的存储结果,包括超参数和验证集上的损失。
1.逻辑回归模型
2.决策树模型
3.Random forests - classification description
4.常用模型评估方法
5.天池金融风控训练营
最后
以上就是帅气荔枝为你收集整理的广工大叔协 阿里云天池 金融风控训练营-Task4Task 4的全部内容,希望文章能够帮你解决广工大叔协 阿里云天池 金融风控训练营-Task4Task 4所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复