听起来您对将双变量分布拟合到数据感兴趣?一种方法是拟合二元正态分布。不幸的是,许多双变量数据集看起来根本不像双变量正态。所以人们考虑了更一般的分布。一种方法是分别考虑边际分布,然后使用 copula 描述依赖结构。
给定一个边际选择,然后您必须考虑哪个 copula 可能是合适的。不幸的是,我们仍然生活在 copula 石器时代。我们对 copula 的选择基本上归结为人们写下的一系列可能性。我们选择其中之一,看看它与我们的数据的匹配程度,尽管除了咕哝和指点外,没有普遍接受的方法。如果它不太适合,那么我们可以尝试另一个,并继续前进,直到我们满意为止。
通常,您不是选择一个特定的 copula,而是根据一个或多个参数选择一个 copula 族,然后尝试在该族中找到最适合的 copula。一个这样的族是高斯 copula族,它取决于参数。通过使用这个系列,您假设,如果和是您的边缘 cdf,则和遵循二元正态分布具有相关性。这也许就是你所说的线性相关?ρFGΦ−1F(X)Φ−1G(Y)ρ
本质上,这只是意味着您要分别转换XYXY通过选择边际),然后将二元法线拟合到结果。
如果您有@Glen_b 示例中的数据,那么您会观察到变量看起来具有均匀分布。所以你可以使用来转换它,它是普通 cdf 的倒数。另一方面,变量看起来很正常,因此您不会对其进行转换。然后,您将尝试将二元法线拟合到转换后的数据。YuΦ−1Xx

事实证明,对于现实生活中的数据,这通常是不够的;没有一对单变量变换会使和看起来像二元正态分布,因此高斯 copula 不是一个好的选择。特别是,当您有尾部依赖时,就会发生这种情况。这是 TGR 关于高斯 copula 的博客文章,其中包含更多详细信息。XY
使用高斯 copula 可能比仅使用二元正态更好,但也可能有更好的选择,特别是如果您关心分布的尾部。例如,有许多流行的阿基米德系词家族具有尾依赖。
另一方面,如果您想要灵活且易于安装并且不介意尾巴的东西,那么高斯 copula 可能是一个非常好的选择。这取决于它的用途。