增加样本量以获得显着相关性

机器算法验证 假设检验 相关性 统计学意义 样本量 斯皮尔曼罗
2022-04-02 06:46:17

目前我有配对样本用于相关性。Spearman 的 R 为50.2p=0.78

如何计算额外样本的数量以获得更重要的 p 值?

2个回答

我认为您正在调查两个数量之间的相关性是否大于并且您希望知道您的研究需要多少患者才能证明它确实更大。换句话说,我假设您使用的是单面测试0

首先,即使你收集了一百万个样本,也不能保证你会得到显着的结果如果相关性实际上是,那么您可能不会得到显着的结果。但即使它不为零,由于随机性,你也总有可能不会得到显着的结果。0

其次,需要多大的样本取决于真正的相关性有多大

我运行了一个快速的计算机模拟(次重复)来研究样本量需要多大才能获得显着结果的高概率它基于您测量的数量是正态分布的假设。如果不是这种情况,那么这些计算将是错误的。不一定是大错误,但仍然是错误的。10,000

下图显示了对于不同样本大小 ( ) 和总体相关性的不同真实值(rho= ) 结果(称为检验功效)的概率:p<0.05nρ

单边相关检验的功效

如果,显着结果的概率大约为如果,概率约为如您所见,检测大的相关性比检测小的相关性更容易。ρ=0.2n=8050 %ρ=0.1n=8020 %

在这些情况下通常做的是说“如果那么我想要一个显着结果的至少的概率”并选择满足该条件的最小ρ=0.280 %n

最后要说的是,有一些顺序抽样方法,您可以在其中收集更多样本,直到获得显着结果,但它们有一些警告。如果您正在考虑使用这种抽样策略,我建议您咨询统计学家,以确保您以正确的方式使用它。

这取决于所执行的测试和您所做的假设。我假设您要计算的样本量会在 0.05 处给出显着的 p 值,因为的值仍然是 0.2。ρ

您可以使用近似值

t=ρn21ρ2

其中具有近似的学生 t 分布。由于的值是固定的,因此您需要找到的值,使得自由度的分布的第 97.5 个百分位数。在您的情况下,我找到了的截止值。tρntn2n=97