为什么要进行数据分箱？（转）

325 阅读 0 评论 215 点赞

我是靠谱客的博主背后小丸子，这篇文章主要介绍为什么要进行数据分箱？（转），现在分享给大家，希望可以做个参考。

一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化，离散化通常采用分箱法。

分箱的重要性及其优势

离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；
特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。
可以将缺失作为独立的一类带入模型。
将所有变量变换到相似的尺度上。

原文链接：https://blog.csdn.net/pylady/article/details/78882220

转载于:https://www.cnblogs.com/gczr/p/9316606.html

最后

以上就是背后小丸子最近收集整理的关于为什么要进行数据分箱？（转）的全部内容，更多相关为什么要进行数据分箱内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(215)

本文分类：数据结构与算法
浏览次数：325 次浏览
发布日期：2023-09-19 23:35:57

相关文章

连续系统如何离散化

均值滤波代码 C代码

机器学习处理数据为什么把连续性特征离散化，离散化有何好处？

机器学习处理数据为什么把连续性特征离散化，离散化有何好处？

几种滑动平均滤波器的c++模板实现

几种滑动平均滤波器的c++模板实现

为什么要进行数据分箱？（转）

连续变量离散化的原因

特征怎么离散化？为什么需要离散化？特征怎么离散化？为什么需要离散化？

特征怎么离散化？为什么需要离散化？特征怎么离散化？为什么需要离散化？

OpenCV开发笔记（十九）：算法基础之非线性滤波-双边滤波OpenCV开发专栏（

OpenCV开发笔记（十九）：算法基础之非线性滤波-双边滤波OpenCV开发专栏（

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部