AugBoost: Gradient Boosting Enhanced with Step-Wise Feature Augmentation
Philip Tannor, Lior Rokach
Tel-Aviv University, Ben-Gurion University of the Negev
https://www.ijcai.org/proceedings/2019/0493.pdf
GBDT是一种广泛应用的机器学习算法,在很多任务中都取得了SOTA结果。
这篇文章针对GBDT提出一种特征增广的方法,并且取得了较好的效果。对多种特征增广方法进行了探索,利用神经网络的最后一个隐含层来提取特征,该方法是有监督的;或者利用无监督方法,如PCA或者随机映射将特征空间进行旋转。
作者将这几种方法在20个分类数据集上进行测试,结果优于GBDT及之前的相关方法。
本文主要探索如何针对GBDT进行有监督的特征增广,先前已有针对RF如何进行无监督特征增广。

本文主要贡献如下,提出了AugBoost-ANN, AugBoost-PCA, AugBoost-RP。

GBDT数学表述如下

基于梯度的表示方式如下

贪婪式二阶段解释如下

更进一步的,一些参数计算及更新方式如下

基于ANN进行特征增广的训练流程示意图如下

基于AugBoost-ANN的推理过程图示如下

利用PCA进行特征增广的方法描述如下

基于RP进行特征增广方法跟PCA的类似,不再赘述。
这两种方法跟基于ANN的方法区别如下

一些实现细节描述如下

实验中的一些细节和设置如下

关于如何使用PCA,一些细节如下

树的个数及增广细节如下,这里的BA为Between Augmentations

下面是训练算法伪代码

关于上述伪代码,一些需要注意的点如下

在多个数据集上多种方法的实验结果对比如下

在学习曲线及泛化性能方面的实验结果如下

对应的图示如下

一些假设检验的结果如下

n_BA的影响很大,不同的取值影响如下

一些结论如下,如降维不会提升结果,利用RP升维可能会明显降低准确率。
代码地址
https://github.com/ptannor/augboost
我是分割线
您可能感兴趣
最后
以上就是潇洒黑裤最近收集整理的关于IJCAI2019|新型特征增广GBDT--AugBoost(已开源)的全部内容,更多相关IJCAI2019|新型特征增广GBDT--AugBoost(已开源)内容请搜索靠谱客的其他文章。
发表评论 取消回复