如何预测数值“y”?如果我的数据集具有不同数量的参数

数据挖掘 机器学习 预测建模 回归 线性回归
2022-02-25 11:26:32

我有三个用于训练的 excel 表(所有数值)。

  • 第一个 excel 表具有参数a, b, c并输出为y
  • 第二张excel表有参数a, b, c, d, e并输出为y
  • 第三张excel表有参数a, b, c, d并输出为y

y如果仅a, b, c给出值,我必须预测值。

我应该应用线性回归吗?

2个回答

如果你必须预测y只给a,b,c,然后作为第一次看只是丢弃d,e等来自其他数据集*。任何类型的回归都可能有用,您将不得不探索它 - 您不妨从最简单的线性回归开始。

一般来说,如果您不确定应用哪种算法以获得最佳结果,您应该设置一个实验来尝试多个模型:

  • 通过选择测试指标来确定“最佳”的含义(均方误差是回归问题的常见选择)。
  • 将您的数据拆分为训练集、交叉验证集和测试集。
  • 在训练集上训练不同类型的模型:
    • 通过从交叉验证集中获取最佳结果来调整任何超参数(更复杂的模型)。
    • 选择您最好的交叉验证结果作为您对最佳模型的猜测。
  • 最后通过使用您的测试集对其性能进行无偏估计。

* 可能有一些使用方法d,e值来细化一些模型,但如果你正处于询问是否使用线性回归的阶段,这不值得一开始探索。

  1. 请先处理您的数据,这意味着看看您是否可以组合,因为您指定了 a、b、c、d、e 等,这些是您的自变量。
  2. 您知道所需的输出 y,这就是您的因变量。
  3. 您可以在 ANN 中应用 rectifier 和 sigmoid
  4. 然后检查混淆矩阵
  5. 如果需要进行优化,我肯定会需要。