我是靠谱客的博主 舒适小蝴蝶,最近开发中收集的这篇文章主要介绍Python pandas 分层抽样 超简洁,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

这段时间在打一个机器学习比赛,遇到分层抽样的需求。在网上查了一下,虽然也有前辈用pandas写出来过,但代码有很多冗余,于是我又重写了一个超简洁的版本。注释应该还算清晰,各位可以自取。用得好可以给个赞,感谢!

sample_data:原始数据,示例中‘label’列是分层依据
train_proportion:训练集抽取比例,默认70%
seed:随机抽取与打乱顺序时用到的随机数种子,默认为None。当输入一个数字的时候,输出的样本及样本顺序都会固定。

返回的是训练样本和测试样本,两个样本不重叠,且合在一起包含了全部样本。

def stratified_sampling(sample_data, train_proportion=0.7, seed=None):
    # 分层随机选取训练样本
    train_sample = sample_data.groupby('label').apply(lambda x: x.sample(frac=train_proportion, random_state=seed))
    # 上一步得到的样本是按照label聚在一起的,所以这一步需要打乱顺序
    train_sample = train_sample.sample(frac=1, random_state=seed)
    train_sample.reset_index(drop=True, inplace=True)
    # 和原始数据拼接起来,删掉重复值,从而获得测试数据
    test_sample = pd.concat([sample_data, train_sample]).drop_duplicates(keep=False)
    # 同样对抽取出的测试样本打乱顺序
    test_sample = test_sample.sample(frac=1, random_state=seed)
    test_sample.reset_index(drop=True, inplace=True)
    return train_sample, test_sample

然而作者写完这段代码才发现sklearn.model_selection里面有train_test_split,可以完全实现上述效果。不过还是需要reset_index

data_train, data_test = train_test_split(data_label, test_size=0.3, random_state=0, stratify=data_label.label)

最后

以上就是舒适小蝴蝶为你收集整理的Python pandas 分层抽样 超简洁的全部内容,希望文章能够帮你解决Python pandas 分层抽样 超简洁所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部