【Python专题】去重和选择唯一值的函数drop_duplicates、unique

309 阅读 0 评论 204 点赞

我是靠谱客的博主谨慎彩虹，这篇文章主要介绍【Python专题】去重和选择唯一值的函数drop_duplicates、unique，现在分享给大家，希望可以做个参考。

声明：不定期更新添加新的方法。

去重有很多种方法，这里只是列举博主用过的几种。

一、函数.drop_duplicates

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

这个函数是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。[1]

参数	意义
subset	用来指定特定的列，默认所有列。认值为subset=None表示考虑所有列。
keep	可用值为 {‘first’, ‘last’, False}，默认为first，即删除重复项并保留第一次出现的项。keep另外两个取值为"last"和False，分别表示保留最后一次出现的重复行和去除所有重复行。
inplace	是直接在原来数据上修改还是保留一个副本。inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。

二、函数.duplicated同一中函数

DataFrame.duplicated(subset=None, keep='first')

三、函数.unique

四、函数set()

转换为集合后输出

五、

【参考文献】

1.Pandas之drop_duplicates：去除重复项

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。