引导测试的引导能力估计

机器算法验证 引导程序 统计能力
2022-04-13 21:26:11

的假设使用(非参数)引导测试,并且我已经有个实际样本作为我的功效估计的基础。通常,我们也会有n1n0n1>n0

使用嵌套引导估计我的测试能力是否有效?基本上,我会个样本并进行替换,并将我的非参数引导测试应用于这些样本中的每一个。最后,我会查看在我的水平上显着的引导测试的百分比。有没有我需要注意的陷阱?n1n0α

我已经做了一些谷歌搜索但没有取得多大成功,也许是因为我不知道正确的搜索词。因此,知道如何调用该过程(如果存在)也很好,这样我就可以找到参考资料。

2个回答

我认为使用 bootstrap 人为地增加样本量不是一个好主意。任何违反观察独立性假设的行为都会大大增加产生虚假结果的可能性(当 n1 显着大于 n0 时就是这种情况)。

我会估计效果大小的置信区间(您尝试使用的差异/关系的强度)并假设下限为真实效果。然后很容易估计功率。

[注意:我假设您已经有了 n0 个观察结果的显着结果。否则,您的数据与原假设兼容*,并且无法对幂进行保守估计 - 除非您使用了错误的测试。功效分析假定了解“真实”效应大小,因此无法使用主题来“绕过”推理统计]

*如果零假设为真,可能会被观察到

当您引导时,您假设新的引导分布等同于原始分布。如果则您将被迫绘制的重复值,这会导致几个问题。首先,自举分布将仅具有事实上的值,其余为副本,并且这些副本只会导致在进行例如相关性分析时对这些随机抽取的值进行更强的加权。然后是@nic 提到的关于您的测试可能需要非相关数据的问题。n1>n0n0n0

如果你想真正获得真正的独立值,我认为你必须分析值,了解它们可能遵循的分布,然后从这个假设的分布中它当然不是通用的,但是,IMO,更透明,你不会受到上述问题的影响。n1n0n1