我们需要训练和测试数据,那么 x 和 y 是什么意思?这是否意味着它将 15% 分配给 'x_train', 'x_val', 'y_train', 'y_val' ?
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.15, shuffle=True)
我们需要训练和测试数据,那么 x 和 y 是什么意思?这是否意味着它将 15% 分配给 'x_train', 'x_val', 'y_train', 'y_val' ?
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.15, shuffle=True)
函数内部test_size=0.15表示应保留用于测试/验证的数据百分比。
X_train, X_val, y_train, y_val = train_test_split(
X, y, test_size=0.15, random_state=42, shuffle=True)
因此,为了训练您的模型,您使用X_train作为特征,使用y_train作为基本事实。同样,在测试时,您使用X_test作为特征并使用y_test来验证预测的标签。
将 (X,y) 视为您的主要数据集,它是输入变量与目标输出分类或值之间的一对一映射。该拆分函数随机划分数据集行,以便您最终得到不相交的训练和测试子数据集。每个测试和训练子数据集的行数都与指定的百分比大小参数成正比。split 函数分别返回 (X_train, y_train) & (X_test, y_test) 部分。
X 是特征值的矩阵,每一列是一个特征,并且是已知值。
X 的每一列都是一个自变量。
y 是目标值的向量,是您要尝试预测的值。
y 只有一列,是依赖/目标变量。
X anf y 中的一行是一个数据样本。
一开始,您会将数据拆分为训练集和测试集。
因此,您将拥有 X_train 和 y_train 用于在模型训练期间使用的特征和目标值。
您将拥有 X_test 和 y_test 用于最终评估模型的特征和目标值。
test_size=0.15 意味着 tou 将使用 15% 的数据样本(行)用于测试集:X_test 和 y_test
以及训练集的剩余 85% 样本(行):X_train 和 y_train