数据挖掘 - 机器学习中统计分析（统计上重要的特征）与特征消除的目的是什么 - 吾爱随笔录 - 问答

机器学习中统计分析（统计上重要的特征）与特征消除的目的是什么

数据挖掘机器学习分类统计数据

2022-02-23 20:17:59

我正在为 covid19 症状（生病后）开发分类模型，但我不了解统计分析的重要性（其中的某些部分）

1 首先：基本上我们进行统计分析来了解数据。然而，计算平均值的目的是什么，标准偏差如下所示：

https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27

它会给我什么启示？

2 此外：他们执行像卡方这样的统计检验，以找到具有统计意义的特征。假设他们有大约 15 个“血液参数”，而测试表明其中只有 10 个在统计上是重要的。这是否意味着这 5 个不会在训练中使用并且可以删除？

3 如果它们可以被移除：特征消除会证明是一样的吗？假设我们使用具有 10 个最佳特征的递归特征消除/随机森林。结果会一样吗？

1个回答

虽然没有详细说明，但看起来他们取了一些连续变量，对它们进行排序，然后使用卡方来确定特征集。没有解释他们为什么这样做。也关于未发现显着的特征。您当然可以在模型中使用它们。卡方是一个弱检验，模型中可能存在有意义的交互作用。

在任何情况下，统计测试都是探索性的。然后不直接用于推理。在接近任何 ML 之前执行基本的统计描述性统计始终是一个好习惯。例如，如果不先查看有多少，他们可能无法执行缺失值插补。另请注意，MVC 变量在 COVID 和非 COVID 响应之间具有重叠的置信区间，这有时表明该变量没有显着差异。

他们选择了四个特征：白细胞计数 (WBC)、单核细胞计数 (MOT)、年龄和淋巴细胞计数 (LYT)，并通过 8 种机器学习算法对其进行分类，并使用堆叠 ML 模型。

其它你可能感兴趣的问题

上一篇3组实体的推荐系统算法建议下一篇图中有许多回归线