我绝对不是统计学家/数学家,所以如果我是,请随时告诉我我是个白痴。
据我从维基百科中得知,所有主要的依赖度量都是对称的,并且测量维度之间的共享信息。我正在寻找一种测量依赖性的不对称方法。
我的意思是不对称的意思是 f(x,y) 可能返回 x 依赖于 y 的程度,其中 f(y,x) 将返回 y 依赖于 x 的程度。
我对数据将采用什么形式有很大的控制权,所以我不太担心我现在将如何处理 n 维的东西——我打算尽可能保持开放,以免限制可能性。继续我之前的符号,也许可以实现 f(x,y,z) 以便返回在给定 y 和 z 的情况下可以确定 x 的程度。
我对术语的使用没有信心,所以我将提供一个示例。
假设我有一堆 x,y 对,其中当 x>0 时 y=1,否则 y=0。基本上是一个阶跃函数。测量 y 依赖于 x 的程度应该会产生高输出(理想情况下为 1),因为给定 x 可以完全确定 y。然而,x 依赖于 y 的程度较低 - 输出应表明存在关系,但在给定 y 的情况下无法完全确定 x。
请记住,提供的示例是一种简化——在现实世界中,我有兴趣使用一堆不同的数据集来做这件事,这些数据集可能具有相当复杂的非线性非单调关系。但是,我将以 x,y 对的形式获取我的数据。
我整理了一份理想解决方案应该具备的一些非必要属性的列表。
理想的房产愿望清单:
- 输出在 0, 1 之间
- 计算便宜
- 能够处理n维数据
- 在非专业软件环境中相对容易实现