概述
在pandas中,duplicated和drop_duplicates函数用来对DateFrame来进行去重。
默认情况下,drop_duplicates只保留第一次出现的组合 ,如果需要保留最后一次出现的组合,需要使用keep='last'参数。
#!/usr/bin/python # -*- coding: UTF-8 -*- import pandas as pd from pandas import Series, DataFrame from numpy import nan as NA import numpy as np
data2 = DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]}) print (data2) #duplicated, 返回布尔型,表示是否重复, 在使用duplicated和drop_duplicates去重时 print (data2.duplicated()) print (data2.drop_duplicates()) data2['v'] = range(7) print (data2) #保留第一个重复出现的组合 print (data2.drop_duplicates(['k1'])) #保留最后一个出现的组合 print (data2.drop_duplicates(['k1','k2'], keep='last'))
最后
以上就是糟糕溪流为你收集整理的pandas中的drop_duplicates和duplicated的应用的全部内容,希望文章能够帮你解决pandas中的drop_duplicates和duplicated的应用所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复