数据预处理—数据清洗（3）—重复值处理

381 阅读 0 评论 252 点赞

我是靠谱客的博主潇洒吐司，这篇文章主要介绍数据预处理—数据清洗（3）—重复值处理，现在分享给大家，希望可以做个参考。

3.1.3重复值处理

数据去重是处理重复值的主要方法，但如下几种情况慎重去重
- 样本不均衡时，故意重复采样的数据
  - 分类模型，某个分类训练数据过少，可以采取简单复制样本的方法来增加样本数量
- 重复记录用户检测业务规则问题
  - 事务型数据，尤其与钱相关的业务场景下出现重复数据时，如重复订单，重复出库申请

3.1.4数据去重API

dataframe.duplicated()
# 判断重复数据记录
dataframe.drop_duplicates() # 删除数据记录中所有列值相同的记录

# 判断重复数据
isDuplicated = df.duplicated()
# 判断重复数据记录

# 删除重复值
df.drop_duplicates()
# 删除数据记录中所有列值相同的记录
df.drop_duplicates(['col1'])
# 删除数据记录中col1值相同的记录
df.drop_duplicates(['col2'])
# 删除数据记录中col2值相同的记录
df.drop_duplicates(['col1', 'col2']) # 除数据记录中指定列（col1/col2）值相同的记录