如何选择最合适的机器学习模型?

数据挖掘 机器学习
2022-02-20 14:47:10

我需要任何熟悉机器学习领域的人的帮助。

ID        | Mach_1  | Mach_2 | Mach_3  | Mach_4 | Mach_5 | Rejected Unit (%)
127189.11     1         0        1         1        1           0.23
178390.11     0         0        0         1        0           0.10
902817.11     1         0        1         0        1           0.60

以上是我的数据示例,对于每个 ID,有几个可用的马赫数,如果该特定马赫数用于该 ID,则值为 1,如果未使用马赫数,则为 0。被拒绝的单位是该 ID 的拒绝单位的百分比值。

我想知道的是哪个马赫对被拒绝的单位影响最大。以及影响到被拒绝单元的每个马赫的百分比是多少。

谁能帮我就我可以用来分析这个案例研究的机器学习算法/模型提供建议吗?

编辑:

我已经完成了线性回归,下面是我的代码,但是输出显示了两个警告,如下面的屏幕截图所示。

import statsmodels.api as sm
#create model
mod = sm.OLS(y_train,X_train)
res = mod.fit()
print(res.summary())

在此处输入图像描述

1个回答

拟合线性模型。使用拒绝的单位 % 作为目标。然后查看线性回归的系数,了解每个系数对结果的贡献程度。

您可以使您的代码适应这个 sklearn 示例:

https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py

如果您对此感到满意,您可以转向更高性能/非参数算法作为决策树。或者只是使用 LASSO 回归。