pandas中的drop_duplicates和duplicated的应用

277 阅读 0 评论 183 点赞

我是靠谱客的博主糟糕溪流，这篇文章主要介绍pandas中的drop_duplicates和duplicated的应用，现在分享给大家，希望可以做个参考。

在pandas中，duplicated和drop_duplicates函数用来对DateFrame来进行去重。

默认情况下，drop_duplicates只保留第一次出现的组合，如果需要保留最后一次出现的组合，需要使用keep='last'参数。

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import pandas as pd
from pandas import Series, DataFrame
from numpy import nan as NA
import numpy as np

data2 = DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
print (data2)
#duplicated, 返回布尔型，表示是否重复, 在使用duplicated和drop_duplicates去重时
print (data2.duplicated())
print (data2.drop_duplicates())
data2['v'] = range(7)
print (data2)
#保留第一个重复出现的组合
print (data2.drop_duplicates(['k1']))
#保留最后一个出现的组合
print (data2.drop_duplicates(['k1','k2'], keep='last'))