模型选择和模型评估的统计

机器算法验证 模型选择 计量经济学 方法 哲学的
2022-03-17 20:45:11

David F. Hendry 在其动态计量经济学中提出以下建议:

当引用“测试”统计数据时,您必须问“这是选择标准统计数据还是真正的测试统计数据?” 如果一个模型之所以被选中是因为某个标准是令人满意的,那么该标准的值也不能作为对模型有效性的检验:通过构建,模型满足统计检验,这些检验被用作它们选择的基础。

对模型选择模型评估都使用统计数据似乎是许多模型构建者陷入的陷阱。例如,在参加研讨会时,人们会听到诸如“我的模型的 R 平方很高(或可接受)”之类的评论,以便将模型出售给潜在消费者。然而,除非明确说明,模型选择过程仍然(老实说)只有生产者知道。在这种情况下,从消费者的角度来看似乎很难批评;R-squared 是用于模型选择,还是用作质量检查设备?也许,它被用于两者(错误地)?

接下来是几个相关的问题。

为了避免以这种方式滥用统计数据,模型生产者是否可以遵循任何指导方针?哪些模型构建策略对这个陷阱最不/最开放?当模型的消费者怀疑统计数据以这种方式使用时,他们可以做什么?是否犯罪到了模型完全失去其用处的程度?

我也渴望收到有关此主题的参考资料。

1个回答

我将尝试依次回答每个问题。与 fg nu 的评论相反,我认为这里有真正的问题——虽然可能很困难,但也有真正的答案。在整个过程中,当我提到滥用统计数据时,我的意思是没有认识到人们犯了在模型选择模型评估中滥用统计数据的错误,而不是故意这样做。换句话说,假设智力诚实。我自己回答是为了激发更多的答案。

问:为了避免以这种方式滥用统计数据,模型生产者是否可以遵循任何指导方针?

一个指导方针是投入大量时间来规划自己的研究。这似乎很好地符合 Hendry 和 Leamer 的方法论立场(尽管分别贴上常客和贝叶斯的标签是有争议的)。例如,Leamer 提出了数据分析的三个阶段;计划,批评修改. 他说应该将大量时间用于规划阶段,他将其定义为“准备对假设数据集的响应”。考虑过研究过程、每个节点面临的决策以及相应的反应,人们应该不太倾向于犯将统计数据用于两个相互冲突的目的的错误。只要一切可控,就可以排除犯这种错误的可能性。这与下面提到的算法研究或自动选择方法有关。

问:哪些模型构建策略最不/最容易受到这个陷阱的影响?

在不了解完整策略集的情况下,很难确定最容易/最少暴露于这个陷阱的确切策略。但是,我将根据一个特定属性对策略进行分类,以尝试得到一个合理的答案。关键属性是可编程的。涉及大量计划并且可以编程或写出作为配方的建模策略 - 无论可能多么复杂 - 是最不适合将统计数据用于模型选择和模型评估的双重目的的策略。也就是说,当然,假设程序员的目标之一是避免统计数据的误用!

有趣的是,随着时间的推移,从 Hendry 的动态计量经济学到他与 Doornik 在自动选择方法方面的最新工作,人们感觉到这种程序化或算法研究在未来将成为一种常态。

最容易滥用统计数据的策略是非结构化的建模策略;那些包含广告并且可能无法复制的内容。这些非结构化方法与 Leamer 所指的即席规范搜索(掩盖私人信念)和 Hendry 举例说明的拼凑的教科书计量经济学密切相关。

问:当模型的消费者怀疑统计数据被以这种方式使用时,他们会怎么做?

尝试进行复制研究 - 或让其他有足够技能的人尝试为您做。

问:犯罪到了模型完全失去用处的程度吗?

在这里,我借用了 Hendry,他说“最终模型是如何推导出来的,这在很大程度上是无关紧要的;它要么有用要么没用,而且该特征与它是否纯粹来自奇思妙想、某种精确的理论或非常结构化的搜索无关。” 请注意,它在很大程度上是不相关的,也不是完全不相关的;避免滥用统计数据进行模型选择和模型评估的建议仍然有效。换句话说,滥用可能会导致该模型不是最主要的模型(因此建议避免使用它),但是,如果出于某种原因,它确实是最好的和最终的模型,任何决定在研究过程中制作的内容不会影响模型的实用性。

我发现在回答这个问题时有用的参考资料包括:

ET 对话:关于计量经济学方法论的对话 David F. Hendry、Edward E. Leamer 和 Dale J. Poirier Econometric Theory Vol。6,第 2 期(1990 年 6 月),第 171-261 页

经验模型发现和理论评估 - 计量经济学中的自动选择方法 David F. Hendry 和 Jurgen A. Doornik

以及大卫·亨德利(David Hendry)题为“经验证据如何影响或不影响经济思维和理论”的演讲。