我使用 matlabcorr()函数来识别 236 个样本的相关性。选择 Pearson 相关,输出返回 r 和 p 值。两组样本返回不同的 r & p 值。
我可以知道如何解释与以下结果相关的重要性吗?
(a) 数据呈强负相关,p值远小于0.05 ( p << 0.05 ) 显着
r = -0.9383
p = 6.7415e-110
(b) 数据呈弱正相关,当 p 值 > 0.05 时不显着。
r = 0.06800
p = 0.2981
我对吗?
我使用 matlabcorr()函数来识别 236 个样本的相关性。选择 Pearson 相关,输出返回 r 和 p 值。两组样本返回不同的 r & p 值。
我可以知道如何解释与以下结果相关的重要性吗?
(a) 数据呈强负相关,p值远小于0.05 ( p << 0.05 ) 显着
r = -0.9383
p = 6.7415e-110
(b) 数据呈弱正相关,当 p 值 > 0.05 时不显着。
r = 0.06800
p = 0.2981
我对吗?
您已经根据传统的教科书方案正确解释了这些结果。
就个人而言,我通常不喜欢用标准的方式来思考 p 值。(安装肥皂盒...)首先,值得考虑的是有几种有效的方法可以查看 p 值。费舍尔认为它们是针对零假设的证据的连续测量,Neyman & Pearson 将它们用作决策过程的中心。似乎使用 p 值的最常见方式在任何一种方法下都无效。在我看来,Neyman-Pearson 框架有很多话要说,但主要适用于有理论明确提出两个可能值的情况,一个空值(可能是,但也可能是另一个数字)和一个替代值()。在这种情况下,您可以围绕区分这两个值来设计整个调查。这将需要指定,除其他外,(你愿意忍受的长期 I 型错误率),(你愿意忍受的长期 II 型错误率),(样本量)等。在这种情况下,我说某事是“重要的”或“不重要的”是有道理的。但是,我认为这些情况只是少数情况。例如,对于您的第二个样本,我会说您不能以超过 70% 的置信度得出相关性为正的结论。您还需要检查您的数据并考虑可能的非线性和范围限制。(从肥皂盒下台……)
与@gung 一致,我认为假设检验是非常有问题的,尤其是在这种特定的相关性评估设置中。将其视为一个估计问题会更有用,并且会减少我们的麻烦:我们正在估计两个变量关联的统一强度。我们可以计算估计的不确定区间,例如 0.95 置信区间。如果这个区间是我们可以粗略地说,如果模型和随机抽样假设为真,我们的数据与和之间的潜在真实相关性一致, “置信度”为 0.95。您还可以计算最坏情况(真实相关性为零)的误差范围以估计相关性。这在BBR第 8.5.2 节。