蒙特卡洛模拟所需的样本数量:这个近似值有多好?

机器算法验证 模拟 蒙特卡洛
2022-04-05 13:13:12

风险理论Beard、Pentikanen 和 Pesonen (1969) 中,提到了一种评估蒙特卡罗模拟所需样本数量的方法:

σ=p(1p)s121s

在哪里F(x)=p,即它是观察某个值的概率xs是多个样本。这向我们表明,在 99% 的置信度值下,我们可以预期在模拟研究中观察到的值将位于±2.576σp的。这类似于Aksakal 提到的基于观察到的方差的模拟标准误差估计作者似乎建议可以在模拟之前使用该公式来评估所需的样本数量(s) 以获得具有一定精度的模拟结果。

这个近似值有多好?

2个回答

近似值可能很差p接近于零或一,但当p=1/2它完全成立。

这里的想法是,我们想通过在许多蒙特卡罗试验中使用样本比例来估计事件的概率,并且我们想知道该比例对真实概率的估计有多准确。标准差σ正如作者所指出的那样p(1p)/s(在哪里s是蒙特卡洛模拟的次数),但问题是我们不知道p. 但是,我们可以最大化σ关于p并得到这个标准误差的保守“估计”,无论如何它都将永远成立p恰好是。这可能最终导致我们运行比我们需要的更多的模拟,但这并不重要,只要迭代本身的计算成本低。

这种近似称为Wald 置信区间它基于二项式的正态近似。这个近似值有多好?有两个答案:当样本量至少为 30 时和“视情况而定”。

“30”这个答案非常受欢迎,并且已经从一本书传到另一本书,直到它几乎成为一个公理。一旦我能够跟踪提到它的第一篇论文。

本文探讨了“取决于”的答案:Zachary R. Smith 和 Craig S. Wells 的 Central Limit Theorem and Sample Size

另一件事是减少方差对于低或高使用尤为重要p. 显然,Wald 的公式在这种情况下不会直接起作用。