在机器学习领域处理数据时，x 和 y 是什么意思？

数据挖掘机器学习 Python 美国有线电视新闻网训练

2022-02-11 06:10:21

我们需要训练和测试数据，那么 x 和 y 是什么意思？这是否意味着它将 15% 分配给 'x_train', 'x_val', 'y_train', 'y_val' ？

x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.15, shuffle=True)

3个回答

函数内部test_size=0.15表示应保留用于测试/验证的数据百分比。

X_train, X_val, y_train, y_val = train_test_split(
                             X, y, test_size=0.15, random_state=42, shuffle=True)

X - 独立特征（不包括目标变量）
y - 因变量，称为（目标）。

因此，为了训练您的模型，您使用X_train作为特征，使用y_train作为基本事实。同样，在测试时，您使用X_test作为特征并使用y_test来验证预测的标签。

将 (X,y) 视为您的主要数据集，它是输入变量与目标输出分类或值之间的一对一映射。该拆分函数随机划分数据集行，以便您最终得到不相交的训练和测试子数据集。每个测试和训练子数据集的行数都与指定的百分比大小参数成正比。split 函数分别返回 (X_train, y_train) & (X_test, y_test) 部分。

X 和 y

X 是特征值的矩阵，每一列是一个特征，并且是已知值。

X 的每一列都是一个自变量。
y 是目标值的向量，是您要尝试预测的值。

y 只有一列，是依赖/目标变量。
X anf y 中的一行是一个数据样本。

分裂

一开始，您会将数据拆分为训练集和测试集。

因此，您将拥有 X_train 和 y_train 用于在模型训练期间使用的特征和目标值。
您将拥有 X_test 和 y_test 用于最终评估模型的特征和目标值。

测试尺寸

test_size=0.15 意味着 tou 将使用 15% 的数据样本（行）用于测试集：X_test 和 y_test

以及训练集的剩余 85% 样本（行）：X_train 和 y_train

其它你可能感兴趣的问题

上一篇验证数据和测试数据之间到底有什么区别下一篇数据集以及为什么使用评估（）？