许多研究只报告两个变量之间的关系(例如线性或逻辑方程),, 和. 我想使用这些报告的统计数据来重现这种关系及其变化。大多数统计软件会根据平均值和标准误差生成参数分布。假设一个正态分布,参数估计的标准误差可以用这三个统计量来计算吗?本质上,我可以从?
或者我是否需要执行某种引导程序来生成具有相同的发行版然后计算标准误?如果是这样,线性与非线性方程有更好的吗?
许多研究只报告两个变量之间的关系(例如线性或逻辑方程),, 和. 我想使用这些报告的统计数据来重现这种关系及其变化。大多数统计软件会根据平均值和标准误差生成参数分布。假设一个正态分布,参数估计的标准误差可以用这三个统计量来计算吗?本质上,我可以从?
或者我是否需要执行某种引导程序来生成具有相同的发行版然后计算标准误?如果是这样,线性与非线性方程有更好的吗?
如果您查看 Pearson 积矩相关性的 Wikipedia 页面,您会发现描述如何计算置信区间的部分。通常,人们会使用 Fisher 的-transformation (arctan) 转成近似正态分布的变量:
注意:这种方法是一种近似值,维基百科页面上列出了精确的公式,但它们更难使用。尽管维基百科页面上没有说明,但您需要满足几个条件才能使此近似值合理。这至少应该是(IIRC),边际分布(即相关的两个变量的单变量分布)应该是正态的。例如,如果相关性由两个向量组成,我不确定这是否准确沙s。然而,更高应该允许您补偿轻微的非正态性。
为了增加gung的答案,还可以使用一种懒惰的方法,直接计算相关性的标准误差。这在某些情况下会产生不准确的结果,并可能产生不可能的超出范围的置信区间。但在大多数情况下,这很好。方程是:
假设 n=200,r=.3。我使用心理测量学CIr中的函数来获得基于 Fisher Z 变换的 CI。然后我根据直接法计算相关性的标准误,找到相同的CI(95%):
> psychometric::CIr(.3, 200)
[1] 0.17 0.42
> sqrt((1-.3^2)/(200-2))
[1] 0.068
> .3 - 1.96 * 0.068
[1] 0.17
> .3 + 1.96 * 0.068
[1] 0.43
.17-.42 与 .17-.43。因此,我们看到这些方法仅产生很小的差异。
|相关性|越接近,快速方法越不准确 达到 1 并且 n 很小。为了说明,现在假设 n=20,r=.9。然后:
> psychometric::CIr(.9, 20)
[1] 0.76 0.96
> sqrt((1-.9^2)/(20-2))
[1] 0.1
> .9 + 1.96 * 0.1
[1] 1.1
> .9 - 1.96 * 0.1
[1] 0.7
因此,这里的结果明显不同:0.76-.96 与 .7-.1.1!后者是不可能的,所以我们可以减少到 0.7-1.0。下面的两个图分别显示了下限和上限的差异:
因此,蓝色表示快速方法产生的值太低,红色表示它产生的值太高,绿色表示它给出正确答案。我的结论是,当 n 低于 100 时,快速方法给出的结果非常不精确,但对于较大的 n,这并不重要。
例如,方程给出:
Cohen, J. 和 Cohen, J. (Eds.)。(2003 年)。行为科学应用多元回归/相关分析(第 3 版)。新泽西州莫瓦:L. Erlbaum Associates。
另请参阅SO 上的这个问题。