我是靠谱客的博主 懦弱凉面,最近开发中收集的这篇文章主要介绍利用model_selection中的train_test_split对整个dataset进行切分,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
交叉验证:评估模型的表现
1.使用train_test_split可以对训练和测试集进行快速的切分
在切分之前该函数参数中的shuffle的default = True,默认
的会对数据进行洗牌之后再切分
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5,2)),range(5)
可以看到X是一个5*2的结构也就是5个samples,2个features
y是对应的label对于samples的数量同样为5个
print('X',X)
print('y', y)
X [[0 1]
[2 3]
[4 5]
[6 7]
[8 9]]
y range(0, 5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2
,random_state = 42)
可以使用model_selection模块中的train_test_split来对整个
数据集进行切分,第一个参数为n_samplesm_features,第二
个参数为labels,第三个参数为测试集所占所有数据的比例,随
机的状态为,如上参数所示test_size = 0.2 那么测试集大小应
当为n_samplestest_size = 1对应的训练集则为4
X_train
array([[8, 9],
[4, 5],
[0, 1],
[6, 7]])
y_train
[4, 2, 0, 3]
X_test
array([[2, 3]])
最后
以上就是懦弱凉面为你收集整理的利用model_selection中的train_test_split对整个dataset进行切分的全部内容,希望文章能够帮你解决利用model_selection中的train_test_split对整个dataset进行切分所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复