我正在为 covid19 症状(生病后)开发分类模型,但我不了解统计分析的重要性(其中的某些部分)
1 首先:基本上我们进行统计分析来了解数据。然而,计算平均值的目的是什么,标准偏差如下所示:
https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27
它会给我什么启示?
2 此外:他们执行像卡方这样的统计检验,以找到具有统计意义的特征。假设他们有大约 15 个“血液参数”,而测试表明其中只有 10 个在统计上是重要的。这是否意味着这 5 个不会在训练中使用并且可以删除?
3 如果它们可以被移除:特征消除会证明是一样的吗?假设我们使用具有 10 个最佳特征的递归特征消除/随机森林。结果会一样吗?