我有一个预测连续变量的数据集,. 我有到潜在的特征变量,其中大部分是分类的,其中一些是有序的或分类的。这些已转换为数值。我有两个问题。
- 在这种情况下线性回归是否合适?
- 如果变量不显示线性关系,线性回归还合适吗?否则,哪些算法(希望存在于 中
scikit-learn)可能有效?
我有一个预测连续变量的数据集,. 我有到潜在的特征变量,其中大部分是分类的,其中一些是有序的或分类的。这些已转换为数值。我有两个问题。
scikit-learn)可能有效?您甚至可以对分类数据使用线性回归算法。关键是您的数据是否可学习。例如,看看你的数据,看看专家是否真的可以通过查看输入向量来找到输出。如果可能,可以使用线性回归方法来学习您的任务。
关于线性,重点是线性回归也可以学习非线性映射。你只需要提供你拥有的当前特征空间的足够高阶多项式,这不是一件容易的事。例如,您可以通过将每个特征的平方添加到当前特征空间来扩展当前特征空间。您会观察到,如果您的映射不是线性的,它可能比通常情况具有更好的性能,但您仍然可能有错误。因此,您必须提供更多多项式特征,但您不知道使用哪个。
不需要添加额外特征的线性回归的替代方法是多层神经网络(MLP)。您可以简单地使用它们来学习非线性映射。您可以查看SKlearn的官方页面以进行应用。此外,您可以查看此处以应用它们。