我是靠谱客的博主 傲娇白猫,最近开发中收集的这篇文章主要介绍金融时序预测Task05:建模预测,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、特征工程

1.重要性

数据挖掘二八法则,80%选取特征,20%模型融合。特征越好,模型的性能越出色,构建的模型越简单,模型的灵活性越强。

2.概念

基于数据分析与探索提取潜在有价值的特征。数据分析与探索-提取特征-分析与因变量关联以筛选有价值特征-特征组合。

3.几大步骤(数据分析与探索-观察数据特点以剔除无用特征-基于相关性分析与独立性分析剔除弱关联特征)

其一特征提取与特征组合:

1)箱型图分析

2)点线图分析

3)离线型特征重要性:可用于设计规则,易于模型拟合,xgboost,lightgbm,catboost等都以决策树为基模型,便于理解,便于做特征组合,在推荐系统等领域很常见。

4)建议的特征提取与组合方式,以理解问题为北京,做数据分析与探索,以时间序列问题为例,常见的特征类别包括统计量(最大值、最小值、中位数、峰度、偏度)、排序、分位数;以推荐系统为例,常见的特征类别包括用户特征、商品特征、行为特征(按时段统计)

其二特征处理-劣态优胜

1)劣态:剔除几乎无关的特征

2)处理自变量间的共线性,可通过特征组合处理;a与b存在共线性,保留a,构造ab

3)选取好的特征子集

劣汰后的特征集-特征重要性评估方法-排序后取交集

其三 特征重要性分析方法

1)Mean Variance Test

2)SHAP(SHAP Value为正,表明变量对预测值有促进作用;SHAP Value为负,表明变量对预测值有抑制作用;绝对值越大  =>  对预测影响越大)

3)Permutation Importance(Python包eli5,一个特征被处理为随机数后,若模型效果下降明显,则认为该特征重要)

二、建模预测

1.模型训练与验证

1.1模型训练、预测及线下验证

训练与预测流程主要为数据集划分及生成-训练模型-模型选择、参数调优-模型融合-线下验证-线上预测。

1)数据集划分,无时序的数据集:简单划分、交叉验证划分等;有时序的数据集:需考虑时序,nested交叉验证划分等

2)模型选择,依据在验证集上的效果选择,除了关注效果的均值,还要关注稳健性,还需考虑线上效果;可将线上效果视为一折数据。

3)参数调优,不建议将精力放在参数调优上;容易过拟合大体的设置参数即可,应将精力重点放在特征工程;其次是模型融合。

1.2常用的回归模型

1)多元回归模型

2)线性回归(可采用最小二乘或梯度下降等方法估计,当变量较多时,建议考虑添加LASSO等惩罚项)

3)决策树(变量选择条件1:为每个变量选择切分点,从而将变量作为节点分裂;变量选择条件2:在分裂后,依据相应分支内所有样本的因变量均值作为估计,并评估拟合误差;贪心策略:综合评价每个变量对上述两个条件的满足程度;CART回归树)

4)随机森林(集成学习之Bagging:随机选取样本、特征,常采用决策树作为基模型

并行集成策略,取所有树的输出均值)

5)梯度提升树(集成学习之Boosting:依据估计误差调整样本权重,常采用决策树作为基模型,串行集成策略)

1.Gradient Boosting Tree

2.Xgboost

里程碑,Gradient Boosting算法的高效实现,考虑了模型复杂度:在目标函数中添加了相关正则化项,拟合效果更佳:对损失函数采用二阶泰勒展开多线程,近年来,被广泛应用于比赛、公司业务

3.LightGBM

微软,更快的训练速度,更低的内存消耗,功能更全面,更新、维护好,将连续型变量离散化后,采用直方图形式获取相应统计量,寻求最优分割点(面试时常问)

4.Catboost

采用特殊的方式处理类别型特征(建模时需指定)使用了组合类别特征,基模型是对称树,运行速度较慢(与CPU版的Xgboost类似)

1.3模型参数

模型参数的设置,不建议将精力放在调参;黔驴技穷时再调参。仅需大体的设置主要参数即可

例如,Xgboost,learning_rate=0.1,nround=200,max_depth=6

1.4模型融合

主要策略:

1)加权:算数平均数、几何平均数、调和平均数等

2)Stacking:交叉验证;类似于深度学习

3)Blending:简单划分数据集;相当于只做Stacking的一折

4)模型平均(类似于加权集成策略,统计学领域的研究热点,线性模型的模型平均方法及理论已被研究得很好,S-AIC、S-BIC以及张新雨、梁华等方法)

5)时序方法/模型与机器学习的融合

作者:58506fd3fbed
链接:https://www.jianshu.com/p/8f3f9a6c5776
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

最后

以上就是傲娇白猫为你收集整理的金融时序预测Task05:建模预测的全部内容,希望文章能够帮你解决金融时序预测Task05:建模预测所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部