在机器学习领域处理数据时,x 和 y 是什么意思?

数据挖掘 机器学习 Python 美国有线电视新闻网 训练
2022-02-11 06:10:21

我们需要训练和测试数据,那么 x 和 y 是什么意思?这是否意味着它将 15% 分配给 'x_train', 'x_val', 'y_train', 'y_val' ?

x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.15, shuffle=True)
3个回答

函数内部test_size=0.15表示应保留用于测试/验证的数据百分比。

X_train, X_val, y_train, y_val = train_test_split(
                             X, y, test_size=0.15, random_state=42, shuffle=True)
  • X - 独立特征(不包括目标变量)
  • y - 因变量,称为(目标)。

因此,为了训练您的模型,您使用X_train作为特征,使用y_train作为基本事实。同样,在测试时,您使用X_test作为特征并使用y_test来验证预测的标签。

将 (X,y) 视为您的主要数据集,它是输入变量与目标输出分类或值之间的一对一映射。该拆分函数随机划分数据集行,以便您最终得到不相交的训练和测试子数据集。每个测试和训练子数据集的行数都与指定的百分比大小参数成正比。split 函数分别返回 (X_train, y_train) & (X_test, y_test) 部分。

X 和 y

  • X 是特征值的矩阵,每一列是一个特征,并且是已知值。

    X 的每一列都是一个自变量。

  • y 是目标值的向量,是您要尝试预测的值。

    y 只有一列,是依赖/目标变量。

  • X anf y 中的一行是一个数据样本。

分裂

一开始,您会将数据拆分为训练集和测试集。

  • 因此,您将拥有 X_train 和 y_train 用于在模型训练期间使用的特征和目标值。

  • 您将拥有 X_test 和 y_test 用于最终评估模型的特征和目标值。

测试尺寸

test_size=0.15 意味着 tou 将使用 15% 的数据样本(行)用于测试集:X_test 和 y_test

以及训练集的剩余 85% 样本(行):X_train 和 y_train