非线性相关性/相关性的不对称测量?

机器算法验证 相关性 独立 非独立的 信息论 互信息
2022-04-02 18:12:59

我绝对不是统计学家/数学家,所以如果我是,请随时告诉我我是个白痴。

据我从维基百科中得知,所有主要的依赖度量都是对称的,并且测量维度之间的共享信息。我正在寻找一种测量依赖性的不对称方法。

我的意思是不对称的意思是 f(x,y) 可能返回 x 依赖于 y 的程度,其中 f(y,x) 将返回 y 依赖于 x 的程度。

我对数据将采用什么形式有很大的控制权,所以我不太担心我现在将如何处理 n 维的东西——我打算尽可能保持开放,以免限制可能性。继续我之前的符号,也许可以实现 f(x,y,z) 以便返回在给定 y 和 z 的情况下可以确定 x 的程度。

我对术语的使用没有信心,所以我将提供一个示例。

假设我有一堆 x,y 对,其中当 x>0 时 y=1,否则 y=0。基本上是一个阶跃函数。测量 y 依赖于 x 的程度应该会产生高输出(理想情况下为 1),因为给定 x 可以完全确定 y。然而,x 依赖于 y 的程度较低 - 输出应表明存在关系,但在给定 y 的情况下无法完全确定 x。

请记住,提供的示例是一种简化——在现实世界中,我有兴趣使用一堆不同的数据集来做这件事,这些数据集可能具有相当复杂的非线性非单调关系。但是,我将以 x,y 对的形式获取我的数据。

我整理了一份理想解决方案应该具备的一些非必要属性的列表。

理想的房产愿望清单:

  • 输出在 0, 1 之间
  • 计算便宜
  • 能够处理n维数据
  • 在非专业软件环境中相对容易实现
2个回答

多元回归模型的就是这样一种不对称的度量。上的回归模型导致的上的回归模型不同。这是因为该值是使用与平均值的垂直距离的比例计算的,该比例由最佳拟合线使用上的条件平均值来预测 Y 的平均潜在R2YXR2XYYXY

编辑:在下面的讨论中,表明可能是守恒的和“对称的”。有一个特定的应用,可用于总结高维预测模型。一般来说,依赖性是一个复杂的数学概念,如果不做出强有力的(通常是不可测试的)假设,您很少能了解两个变量之间的依赖性。我认为为了传达应用环境中两个变量之间相互关系的各个方面,“关联”一词要好得多。R2R2

对于较小的模型,仅使用线性回归模型的系数及其 95% 置信区间就足以报告这些数据的一阶趋势这些都是完善的关联措施。即使趋势可能是非线性的,线性回归模型也有一个系数,该系数被视为某些回归器中单位差异的结果的“经验法则”差异。变量视为结果或回归量的回归模型,这些必然不同。我在文献中经常看到这种形式的模型,其中包含多达 20 个大样本的调整变量。Y

可以定义非对称相关性度量 R(X,Y),使得 R(X,Y)=0 当且仅当 Y 独立于 X,R(X,Y)=1 当且仅当 Y 是函数X. X 和 Y 可以是随机变量的向量,连续的或离散的。一个例子是一个圆 X^2 + Y^2 = 1,其中 X 和 Y 都不是另一个的函数。传统的对称依赖度量,例如互信息或 Hellinger 距离产生最大依赖,但新度量给出值 R(X,Y)=R(Y,X)=0.5。另一个例子是 Y=X^2。传统测量值再次给出最大值,但新测量值给出值 R(X,Y)=1,R(Y,X)=0.5。线性相关在两个例子中都给出了 0。该测度满足了一组不同于 Renyi 的对称依赖测度公理的新条件。在连续情况下,度量基于 copula,因此是非参数的。请查看我最近在 arXiv 上的工作:1502.03850、1511.02744、1512.07945 关于双变量、多变量和离散非对称依赖度量。

以下是更多细节: 非对称相关性度量 R(X,Y) 定义为以 X 为条件的 Y 的累积分布与 Y 的无条件累积分布之间的距离。当两个分布相同时,它等于 0,这意味着Y 与 X 无关。当 Y 是 X 的函数时取最大值,或者以 X 为条件的 Y 的累积分布具有从零到一的单次跳跃。这可以扩展到 n 维,其中 R(X1,...,Xn,Y) 定义为以 X1,...,Xn 为条件的 Y 的累积分布与 Y 的无条件累积分布之间的距离。它当 Y 独立于 X1,...,Xn 时取最小值(零)。当 Y 是 X1,...,Xn 的函数时,它取最大值。