预测建模、机器学习等概述

机器算法验证 机器学习 预测模型 样本 人口
2022-04-09 20:43:01

我的文本Intuitive Biostatistics是对常规统计的非数学解释。第 3 章解释了统计学的基本思维方式,即分析样本以从总体中进行推断,或拟合科学合理的模型以找到要理解和比较的参数。

对于下一版(第四版),我想添加一个简短的部分来解释数据分析中使用的其他思维方式。我欢迎批评。谢谢!

本章讨论了在许多科学和临床情况中使用的统计学的基本概念。您可以将此方法视为使用样本中的数据来推断总体。或者,您可以考虑拟合和比较可理解的模型,以获得可以解释和比较的参数值。

有时统计数据用于完全不同的目标:预测未来事件,或发现数据中的模式。在这些情况下,并不总是需要考虑样本和总体,或者考虑表达科学思想的模型。相反,目标是简单地找到一个能够做出合理正确的预测的方程或算法。输入一组数据以获得预测规则,并用另一组数据评估这些预测。这种方法有很多名字,包括机器学习神经网络数据挖掘预测建模。. 这些术语的含义并不完全相同,但都描述了使用本章或本书任何地方未涵盖的方法的数据分析方法。

3个回答

我不明白这句话:

In these situations, it is not always necessary to think about samples and populations, or to think about a model that expresses a scientific idea.

这对我来说没有意义,因为如果我要建立一个回归模型,我仍然需要考虑我的样本和总体。我不明白为什么我应该将我的样本数据插入 R 并希望最好,而不知道我的样本是关于什么的。这句话没有添加任何东西,它令人困惑并且在技术上不正确。

Instead the goal is to simply find an equation or algorithm that makes reasonably correct predictons对我来说听起来很狗。你是什​​么意思reasonably correct你的用户可能不是很数学(否则他们不会买你的书),他们不会理解像 R2 这样的东西。对他们来说,模型要么是good要么bad我认为你应该改写它。

neutral networks. 我认为你应该放弃它,它不会添加任何东西。

也许添加一些图表来说明您的想法?用于绘制预期基因表达与测量基因表达的简单线性回归?在临床环境中对癌症类型进行分类的决策树也不错。

在某种意义上,不是所有(或几乎)所有方法都试图推断出一些概括的东西,从而预测会发生什么吗?在这方面没有太大区别,也不是完全不同的目标。这句话

在这些情况下,并不总是需要考虑样本和总体,或者考虑表达科学思想的模型。

似乎错了。这些东西还是很重要的。但是,我同意这些领域的重点更多是预测而不是假设检验(您可能会说这是关于证明/反驳科学思想)。找到一个能够做出相当好的预测的算法(不太常见的方程)是一个关键点。预测并不总是根据不同的数据进行评估(请参阅交叉验证)。

值得一提的是,由于它们的历史渊源,在这些领域发展了一些不同的术语(例如“学习”而不是“拟合”),但许多相同的想法和问题也适用。

事实上,不对预测中的某些问题发表评论似乎是一个重大遗漏。例如,在我们对 20 名患者进行的第 2 期试验中,我们的药物具有巨大的疗效,我们能否期望在第 3 期也有同样的疗效?或者我们在剂量发现研究中测试 10 个剂量,然后根据点估计选择最好的一个,我们是否应该期望在第 3 阶段看到相同的功效?整体试验未能表明该药物有效,但我们查看了 20 个亚组并确定其中一个药物有效。一项新的试验显示这一点的可能性有多大?这些问题涉及许多与机器学习相同的问题——我上面描述的更天真的事情(这是对你的训练数据过度拟合的一种情况)在某种程度上被更可靠的机器学习方法所避免。

除了来自@Björn 和@StudentT 的想法之外,还有一些想法不适合对他们的任何一个答案进行评论。

您试图区分的似乎是测试数据假设(传统统计推断,您的书的主题)和从数据中收集关系(机器学习,您的书中未涵盖)。但这种区别可能很难做出。

例如,您的书似乎涵盖了全基因组关联研究 (GWAS)。我通常认为 GWAS 更多属于后一类,从数据中收集关系而不是测试预先指定的假设。您在书中详细介绍的多重比较问题对于 GWAS 与许多数据挖掘/机器学习情况基本相同。

还有一点危险,读者会将其解释为作为因果推理的传统推理与作为模式识别的机器学习之间的区别,尽管传统推理通常没有比机器学习更多的关于因果关系的真实信息。您当然会在书中讨论对传统推理的这种解释的谬误,但此时甚至不在读者心中提出这种可能性可能更安全。

此外,Frank Harrell 的回归建模策略中对假设检验和预测有有趣的看法在本书的引言中,强调预测,他认为(第 1 页,第二版):

预测可以被认为是假设检验和估计的超集。

例如(第 2 页):

将效果估计视为模型中两个预测值之间的差异通常很有用。

或更笼统地说(第 3 页):

因此,当开发一个合理的多变量预测模型时,假设检验和效果估计是拟合模型的副产品。因此,即使预测不是主要目标,通常也需要预测建模。

因此,出于您的目的,最好将这种区别淡化为全有或全无,因为假设检验和预测不一定“具有完全不同的目标”。你在书中所涵盖的内容对于任何试图理解许多机器学习方法的人来说也将具有很大的价值。相反,您可以指出当您的书的读者开始探索数据分析方法的另一端时,他们将如何应用他们从您那里学到的知识。