当降维分类时,我是否使用训练集中的平均向量来使测试集居中?

数据挖掘 机器学习 分类 机器学习模型 主成分分析 降维
2022-03-02 12:50:06

请让我知道这是否是问这个问题的正确地方(或者我的任何标签是否错误)或者我是否需要以不同的方式写这个。

当降维分类时,我是否使用训练集中的平均向量来使测试集居中?

我正在使用主成分分析程序来减少训练集的维度。我建立分类器。然后,在我对测试集中的特征向量进行分类之前,在降维的居中部分,我是否使用来自训练集的相同平均向量,我是否取测试集的平均向量并从测试中减去它集,还是我取训练集和测试集并集的平均向量并从测试集中减去它?

如果是第三个选项,这是否意味着我也应该使用训练集和测试集的联合来使训练集居中?不,(为了推广到其他测试集)对吗?

另外,即使我很确定答案与上述相同,您能否让我知道使用训练集中的协方差矩阵获取特征向量矩阵并乘以逆(横向)矩阵是否也是如此它对测试集进行计时以减少它。或者,我们是使用测试集还是两者的并集得到协方差,然后用特征向量矩阵乘以测试集?

请让我知道,如果任何场所是错误的。这是我第一次。

1个回答

当降维分类时,我是否使用训练集中的平均向量来使测试集居中?: 是的。

在计算降维空间的任何步骤中,测试集都不能与训练集结合。最终空间的特征由训练集和测试集决定,即均值调整步骤使用训练均值。

您只需计算最终的特征向量矩阵E(其维度是d×d一开始在哪里d是数据的维度,并且变为dreduced×d选择顶部向量后),然后是您的测试数据D(n×d) 只是乘以该矩阵,您可以在缩小的空间中获得测试数据 (D):

Dn×d×ET=Dn×dreduced

其中的维数ETd×dreduced作为T表示矩阵转置(你提到的逆是错误的)。

注意:根据您在数据矩阵中排列样本的方式,矩阵乘积将完全不同。如果您在文学作品中看到不同的东西,请不要感到困惑。数据的标准形式通常是nsamples×nfeatures这也是上面假设的。每行是一个样本,每一列是一个维度。

我希望它有所帮助。如果您有任何问题,您可以发表评论。