我已经安装了我的模型,并试图了解它是否有好处。我已经计算了推荐的指标来评估它( / AUC / 准确度 / 预测误差 / 等),但不知道如何解释它们。简而言之,我如何根据指标判断我的模型是否好?0.6(例如)的是否足以让我继续进行推论或基础科学/商业决策?
这个问题有意宽泛,涵盖了成员经常遇到的各种情况;这样的问题可以作为这个问题的重复而结束。欢迎进行编辑以扩大此处提到的指标之外的范围,以及其他答案 - 特别是那些提供有关其他类别指标的见解的答案。
我已经安装了我的模型,并试图了解它是否有好处。我已经计算了推荐的指标来评估它( / AUC / 准确度 / 预测误差 / 等),但不知道如何解释它们。简而言之,我如何根据指标判断我的模型是否好?0.6(例如)的是否足以让我继续进行推论或基础科学/商业决策?
这个问题有意宽泛,涵盖了成员经常遇到的各种情况;这样的问题可以作为这个问题的重复而结束。欢迎进行编辑以扩大此处提到的指标之外的范围,以及其他答案 - 特别是那些提供有关其他类别指标的见解的答案。
CrossValidated 的读者几乎可以肯定不能很好地回答这个问题。没有上下文无关的方法来决定等模型指标是否良好。在极端情况下,通常可以从各种专家那里获得共识:接近 1 的通常表示模型良好,接近 0 表示模型糟糕。介于两者之间的范围内,评估本质上是主观的。在这个范围内,不仅需要统计专业知识来回答您的模型指标是否有用。它需要您所在领域的额外专业知识,而 CrossValidated 的读者可能没有。
为什么是这样?让我用一个我自己的经验的例子来说明(小细节改变了)。
我曾经做过微生物实验室实验。我会设置不同营养浓度水平的细胞烧瓶,并测量细胞密度的增长(即细胞密度与时间的斜率,尽管这个细节并不重要)。然后,当我对这种生长/营养关系进行建模时,通常会实现值。
我现在是一名环境科学家。我使用包含自然测量的数据集。如果我尝试将上述完全相同的模型拟合到这些“字段”数据集,如果我的高达 0.4,我会感到惊讶。
这两种情况涉及完全相同的参数、非常相似的测量方法、使用相同程序编写和拟合的模型——甚至是同一个人进行拟合!但在一种情况下,0.7 的会低得令人担忧,而在另一种情况下,它会高得令人怀疑。
此外,我们将在生物测量的同时进行一些化学测量。化学标准曲线模型的约为 0.99,0.90 的值会低得令人担忧。
是什么导致了预期的这些巨大差异?语境。这个模糊的术语涵盖了广阔的领域,所以让我尝试将它分成一些更具体的因素(这可能不完整):
1. 回报/后果/应用是什么?
这是您的领域的性质可能最重要的地方。不管我认为我的工作多么有价值,将我的模型提高 0.1 或 0.2 不会彻底改变世界。但是有些应用程序的变化幅度将是巨大的!股票预测模型的一个小得多的改进可能意味着开发它的公司数千万美元。
对于分类器来说,这更容易说明,所以我将把我对指标的讨论从转换为以下示例的准确度(暂时忽略准确度指标的弱点)。想想鸡性别鉴定这个奇怪而有利可图的世界。经过多年的训练,人类可以在 1 天大的时候迅速分辨出雄性和雌性小鸡之间的区别。雄性和雌性的饲喂方式不同以优化肉和蛋的生产,因此高精度节省了数十亿美元的错误分配投资的鸟。直到几十年前,大约 85% 的准确度在美国被认为是很高的。如今,达到 99% 左右的最高准确度的价值是什么?薪水显然可以高达每年60,000到可能180,000美元(基于一些快速的谷歌搜索)。由于人类的工作速度仍然有限,因此可以达到类似准确度但允许更快分类的机器学习算法可能价值数百万。
(我希望你喜欢这个例子——另一个令人沮丧的例子是关于恐怖分子的非常可疑的算法识别)。
2. 未建模因素对您系统的影响有多强?
在许多实验中,您可以将系统与可能影响它的所有其他因素隔离开来(毕竟这部分是实验的目标)。自然更混乱。继续前面的微生物学例子:当有营养物质可用时,细胞就会生长,但其他因素也会影响它们——天气有多热,有多少捕食者在吃它们,水中是否有毒素。所有这些都与营养物质以及以复杂的方式相互变化。这些其他因素中的每一个都会导致模型未捕获的数据发生变化。相对于其他因素,营养素在驱动变化方面可能并不重要,因此如果我排除这些其他因素,我的现场数据模型必然具有较低的。
3. 您的测量结果有多精确?
测量细胞和化学物质的浓度可以非常精确和准确。根据趋势推特标签来衡量(例如)社区的情绪状态可能会……不那么重要。如果您的测量不能精确,那么您的模型不太可能达到高。您所在领域的测量精度如何?我们可能不知道。
4. 模型复杂度和泛化性
如果您在模型中添加更多因子,甚至是随机因子,您平均会增加模型(调整后部分解决了这个问题)。这是过拟合。过拟合模型不能很好地泛化到新数据,即基于对原始(训练)数据集的拟合,预测误差将高于预期。这是因为它已经拟合了原始数据集中的噪声。这就是为什么模型会因模型选择过程的复杂性而受到惩罚或受到正则化的部分原因。
如果过拟合被忽略或没有成功防止,估计的将向上偏置,即高于应有的值。换句话说,如果模型过度拟合,您的值可能会给您带来对模型性能的误导印象。
IMO,过拟合在许多领域都出奇地普遍。如何最好地避免这是一个复杂的话题,如果您对此感兴趣,我建议您阅读本网站上的正则化过程和模型选择。
5. 数据范围和外推
您的数据集是否扩展了您感兴趣的 X 值范围的很大一部分?在现有数据范围之外添加新数据点会对估计的产生很大影响,因为它是基于 X 和 Y 方差的度量。
除此之外,如果您将模型拟合到数据集并需要预测该数据集 X 范围之外的值(即extrapolate),您可能会发现它的性能低于您的预期。这是因为您估计的关系可能会在您拟合的数据范围之外发生变化。在下图中,如果您仅在绿色框指示的范围内进行测量,您可能会认为一条直线(红色)很好地描述了数据。但是如果你试图用那条红线预测一个超出该范围的值,那你就大错特错了。
[该图是该图的编辑版本,通过谷歌快速搜索“单曲线”找到。]
6. 指标只给你一张图片
这并不是对指标的真正批评——它们是摘要,这意味着它们也有意丢弃信息。但这确实意味着任何单一指标都会遗漏对其解释至关重要的信息。一个好的分析考虑的不仅仅是一个单一的指标。
欢迎提出建议、指正和其他反馈。当然,还有其他答案。
在评估模型如何根据降雨和气候数据预测水流时,这个问题出现在我的水文学领域。一些研究人员(Chiew 和 McMahon,1993 年)调查了 93 位水文学家(63 位做出回应),以了解他们使用了哪些诊断图和拟合优度统计数据,哪些是最重要的,以及如何使用它们对模型拟合的质量进行分类. 结果现在已经过时了,但这种方法可能仍然很有趣。他们展示了各种质量的模型拟合结果,并要求水文学家将它们分为 4 类(1)完全可以接受的结果;(2) 可接受但有保留使用;(3) 不可接受的,只有在没有其他选择的情况下才使用;(4) 切勿在任何情况下使用。
最重要的诊断图是来自用于校准的数据的模拟和记录流量的时间序列图和散点图。R 平方和Nash-Sutcliffe 模型效率系数(E) 是拟合统计量的首选优度。例如,如果 E => 0.8,则认为结果是可以接受的
文献中还有其他例子。在评估北海的生态系统模型时,使用以下分类 E > 0.65 优秀,0.5 到 0.65 非常好,0.2 到 0.5 好,<0.2 差(Allen 等人,2007 年)。
Moriasi et al., (2015)为各种类型的模型提供了可接受的指标值表。
我在一篇博文中总结了这些信息和参考资料。
Allen, J., P. Somerfield 和 F. Gilbert (2007), 量化高分辨率耦合水动力-生态系统模型中的不确定性, J. Mar. Syst.,64(1-4), 3-14, doi:10.1016 /j.jmarsys.2006.02.010。
Moriasi, D., Gitau, M. Pai, N. 和 Daggupati, P. (2015) 水文和水质模型:ASABE(美国农业和生物工程师协会)的绩效测量和评估标准交易 58(6): 1763-1785
只是为了补充上面的好答案-根据我的经验,评估指标和诊断工具与使用它们的人一样好和诚实。也就是说,如果您了解它们背后的数学原理,那么您可能会人为地增加它们以使您的模型看起来更好,而不会增加其实际效用。
例如,就像评论中提到的那样,在某些应用程序中可以极大地提升性能。然而,如果这种提高是人为获得的(即,通过任意删除一些观察值),那么这种性能提高就不是真诚的,并且可以说几乎没有效用。
我会尽量简短地回答这个问题,因为上述内容提供了很好的解释/参考。我只是想对第6 部分添加一些观点。度量标准仅通过 mkt 的回答为您提供了一部分图片。
希望这可以帮助。