机器学习中统计分析(统计上重要的特征)与特征消除的目的是什么

数据挖掘 机器学习 分类 统计数据
2022-02-23 20:17:59

我正在为 covid19 症状(生病后)开发分类模型,但我不了解统计分析的重要性(其中的某些部分)

1 首先:基本上我们进行统计分析来了解数据。然而,计算平均值的目的是什么,标准偏差如下所示:

https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27

它会给我什么启示?

2 此外:他们执行像卡方这样的统计检验,以找到具有统计意义的特征。假设他们有大约 15 个“血液参数”,而测试表明其中只有 10 个在统计上是重要的。这是否意味着这 5 个不会在训练中使用并且可以删除?

3 如果它们可以被移除:特征消除会证明是一样的吗?假设我们使用具有 10 个最佳特征的递归特征消除/随机森林。结果会一样吗?

1个回答

虽然没有详细说明,但看​​起来他们取了一些连续变量,对它们进行排序,然后使用卡方来确定特征集。没有解释他们为什么这样做。也关于未发现显着的特征。您当然可以在模型中使用它们。卡方是一个弱检验,模型中可能存在有意义的交互作用。

在任何情况下,统计测试都是探索性的。然后不直接用于推理。在接近任何 ML 之前执行基本的统计描述性统计始终是一个好习惯。例如,如果不先查看有多少,他们可能无法执行缺失值插补。另请注意,MVC 变量在 COVID 和非 COVID 响应之间具有重叠的置信区间,这有时表明该变量没有显着差异。

他们选择了四个特征:白细胞计数 (WBC)、单核细胞计数 (MOT)、年龄和淋巴细胞计数 (LYT),并通过 8 种机器学习算法对其进行分类,并使用堆叠 ML 模型。