Python数据分析（8）----用Pandas实现数据分层抽样

330 阅读 0 评论 218 点赞

我是靠谱客的博主生动云朵，这篇文章主要介绍Python数据分析（8）----用Pandas实现数据分层抽样，现在分享给大家，希望可以做个参考。

在进行数据处理时，我们有时需要在大量的样本中抽取出部分数据作为数据集进行模型训练或者模型验证，因此在本文中介绍分层抽样方法的python代码实现。

分层抽样：

分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体（或称为层）的总体中，按规定的比例从不同层中随机抽取样品（个体）的方法。这种方法的优点是，样本的代表性比较好，抽样误差比较小。缺点是抽样手续较简单随机抽样还要繁杂些。定量调查中的分层抽样是一种卓越的概率抽样方式，在调查中经常被使用。
在这里插入图片描述

本例说明：

本例中用到的数据是高分一号遥感数据，数据格式如下图所示，其中B1-B4四列是波长，TYPE是地物类型，本例中地物一共分为6类，分别用数字1-6表示。原始数据格式如下图所示：
在这里插入图片描述

分层抽样说明：

本例中需要抽取出3个文件的数据，分别是:
（1）用于模型训练的数据集，该数据集带标签，也就是包含’TYPE’属性：csv_data/sample_train.csv
（2）用于进行测试的数据集，该数据集不带标签，不含‘TYPE’属性：csv_data/sample_test.csv
（3）用于进行测试的数据集，该数据集带标签，用于验证预测类型是否正确：
csv_data/sample_test_label.csv

代码为：

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
# 本程序的功能是随机生成训练样本集和验证样本集
# 采用分层抽样的方法处理.csv文件
# ROI name与地物类型的对应：{1:水体, 2:林地, 3:耕地, 4:道路, 5:建筑, 6:其他}
import numpy as np
import pandas as pd

data = pd.read_csv('csv_data/GF1_WFV2_E114.3_N22.6_20131229_hengqin_六种地物处理后.csv')
np.random.rand()  # 如果使用相同的seed( )值，则每次生成的随机数都相同，numpy.random.seed(seed=2)

gbr = data.groupby('TYPE')  # 用分组函数groupby()进行数据的分组，分组依据为'TYPE'这一属性
gbr.groups    # 获取分组后gbr的数据

train_rate = 0.7    # 所有数据中70%作为训练数据集，30%作为测试数据集
num_tup = np.array([180, 360, 400, 440, 440, 200])   # 全部数据中6种地物的元组数
num_train_tup = np.array([(int)(round(i*train_rate)) for i in num_tup])   # round函数对数进行四舍五入处理
num_test_tup = num_tup - num_train_tup
print(num_train_tup)
print(num_test_tup)

# 定义分层抽样的字典，格式为：组名：数据个数
typicalNDict_train = {1: num_train_tup[0], 2: num_train_tup[1], 3: num_train_tup[2], 4: num_train_tup[3],
                      5: num_train_tup[4], 6: num_train_tup[5]}  # 此处要根据不同的地物类型的总数设置抽样的数据
typicalNDict_test = {1: num_test_tup[0], 2: num_test_tup[1], 3: num_test_tup[2], 4: num_test_tup[3],
                      5: num_test_tup[4], 6: num_test_tup[5]}  # 此处要根据不同的地物类型的总数设置抽样的数据

# 函数定义
def typicalsamling(group, typicalNDict):
    name = group.name
    n = typicalNDict[name]
    return group.sample(n=n)

# 返回值：抽样后的训练数据框,此处抽取的是按照分层抽样的方法，抽取的70%的训练数据
result_train = data.groupby('TYPE').apply(typicalsamling, typicalNDict_train)
print(result_train.head())
result_train.to_csv('csv_data/sample_train.csv', index=False)

#返回值：抽样后的测试数据框,此处抽取的是按照分层抽样的方法，抽取的30%的测试数据，是随机抽取的数据，有可能与训练数据集有重复的数据
# result_test1 = data.groupby('TYPE').apply(typicalsamling, typicalNDict_test)
# print(result_test1.head())
# result_test1.to_csv('csv_data/sample_test1.csv', index=False)

#返回值：抽样后的测试数据框，注意，此处是抽取完70%的训练数据之后，剩下的30%的数据，与训练集不会有重复的数据，该数据集带有分类的标签
result_test_label = data.append(result_train).drop_duplicates(keep=False)   #此处是去重操作，用于去除重复的行，drop_duplicates()函数很有用
print(result_test_label.head())
result_test_label.to_csv('csv_data/sample_test_label.csv', index=False)

#返回值：剩下的30%的数据，该数据集不带有分类的标签，专门用来验证的
result_test = result_test_label.iloc[:, :-1]      #去除result_test_label中的最后一列，也就是去除标签列
print(result_test.head())
result_test_label.to_csv('csv_data/sample_test.csv', index=False)

print('训练数据集中每种样例的个数:n', result_train['TYPE'].value_counts())
print('测试数据集中每种样例的个数:n', result_test_label['TYPE'].value_counts())