预测和分布拟合不是一回事吗?

机器算法验证 预言 拟合优度 配件
2022-03-24 04:04:15

直觉上,在我看来,如果一个人能够对一个变量做出准确的预测,那么一个人也(也许隐含地)对其边际或条件分布产生了一个很好的估计。

相反,如果一个人已经拟合了一个分布函数并且具有估计相当准确的基本事实知识,那么一个人必须能够产生良好的预测。

我故意不指定预测和分布拟合方法。

我的直觉有反例吗?

1个回答

人们还(也许隐含地)对其边际或条件分布进行了很好的估计。

点预测不一定会这样做。

必须能够产生良好的预测。

可能——取决于我们如何定义“好”

我故意不指定预测和分布拟合方法。

好的,然后考虑使用具有单个预测器的线性模型进行预测 - 通过选择线的斜率进行拟合,以使残差和之间的 Spearman 相关性尽可能接近 0(如果间隔为 0,则选择该区间的中心)。与此答案中所做的非常相似以适应一条线x

在此处输入图像描述

的斜率估计),但我们随后继续使用从先前答案中使用的残差获得的不同截距。而是考虑这个:3.714

给定该斜率,使用位置的 3 部分 Hampel 重新下降 M 估计(我们可以通过 M 估计进行整条线拟合,但我想介绍一下可用的各种完全合理的预测方法。)yβ^x

然后从该 x 的拟合值中获得处的点预测,例如xxnewx

因此,对cars我在另一个链接中安装的 R 中的数据执行此操作(使用robustbase::lmrobwithpsi="hampel"的截距15.79

导致这条拟合线:

在此处输入图像描述

处的预测标记在 ( ) 中。这似乎是一个完全合理的预测。x=2162.2

我们当然假设了线性,但在获得该预测时没有进行分布假设 - 斜率是非参数获得的(即使用无分布方法),而截距使用 M 估计(虽然它来自 ML 估计,但 - 重新下降到 0 的函数,例如 Hampel,不对应于实际分布)。ψ

显然,点预测至少不需要涉及或涉及分布拟合,因此标题问题的答案是(显然)“不是这样”。

--

实际上,如果我们随后通过引导生成置信区间或预测区间,我们将在不拟合分布的情况下进行区间预测(除非您将使用/重新采样 ECDF 称为“拟合”,否则它可能estimation取决于您的意图要包含的问题)。[然而,我认为也有一些方法可以得到一些不使用自举的类似路线生成的拟合的间隔。例如,我们可以通过反转 Spearman 检验中的临界值来从斜率生成置信区间;至少某些类型的预测应该允许我们对区间做类似的事情。例如,有非参数公差区间。]