1.首先进行x和y分割
numpy里的split作用是分割列表
复制代码
1
2
3
4
5x , y = np.split(data, (4,), axis=1) #data是要分割的数组,一定是array类型的,如果是list要用numpy的方法转成array #第二项如果为整数,就是平均分割成几份,如果为(4,)就是分割位置为第四列及以前为一组,以后为另一组 #根据行或者列分割数组(axis=0是行,=1是列)
2.筛选x的某些列
因为我们并不一定是所有列都要,所以可能这里会舍弃一些列,通过以下方式选择需要的行或列
复制代码
1
2
3
4#连续的 x = x[:,1:2] #选择所有行与1-2列 (左开右闭,所以只有第二列)
复制代码
1
2
3
4#选择某一些间断的 x = x[:,[1,2]] #选择第二和第三列(因为这里下标是从0开始)
3.分割测试集和训练集
1.调入sklearn.model_selection中的方法train_test_split
复制代码
1
2from sklearn.model_selection import train_test_split
2.使用这个方法分割
复制代码
1
2
3
4X_train,X_test, y_train, y_test =train_test_split(x,y,test_size, random_state) #test_size在0-1之间,为测试集在全部样品中的比例,如果为整数,则为测试集的数目 #random_state为随机数种子
注:random_state作用是让每次的随机方式一样,这样的话每次做实验都能得到一样的结果,从而方便我们调超参数,不然每次训练的效果都不一样,没法调参的时候看调参的效果
最后
以上就是可耐小甜瓜最近收集整理的关于机器学习 2.数据集分割与处理1.首先进行x和y分割2.筛选x的某些列3.分割测试集和训练集的全部内容,更多相关机器学习内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复