这两条曲线之间的“反相关”如何表现出来?

机器算法验证 可能性 相关性 数据可视化 造型
2022-03-26 03:49:53

我正在查看针对两个度量在给定特征上定义的数据。虽然这两种度量都定义在同一个域上,但两种度量都定义在不同的范围内,因此,为了在同一个图上显示两条曲线,它们已被归一化(像概率密度函数一样在支持上求和为一个) .

在同一特征上定义的两个度量。

从可视化中,可以观察到两种测量之间的“交替峰”模式。这很有趣,因为理论假设蓝色曲线表示的度量对红色曲线表示的度量具有抑制或沉默作用。

曲线值散点图

在某些方面,这些交替的峰值可以被认为是相互反相关的;然而,这种散布中的反相关看起来并不是特别强。同样,回归模型在这种情况下看起来也不是特别合适,如散点图所示。这种关系似乎并不明显。

是否有更好的方法来捕获和量化数据中两个度量之间存在的交替峰值模式?

编辑

正如评论中提到的,下表是构建的样本数据,在较短的域上具有与原始数据相似的属性。

             Coordinate Measure1 (Blue Curve) Measure2 (Red Curve)
 1           1            0.01190476           0.01369863
 2           2            0.01190476           0.01369863
 3           3            0.01190476           0.01369863
 4           4            0.02380952           0.02739726
 5           5            0.15476190           0.01369863
 6           6            0.15476190           0.02739726
 7           7            0.11904762           0.05479452
 8           8            0.00000000           0.08219178
 9           9            0.00000000           0.10958904
 10         10            0.00000000           0.10958904
 11         11            0.00000000           0.10958904
 12         12            0.00000000           0.10958904
 13         13            0.00000000           0.10958904
 14         14            0.03571429           0.06849315
 15         15            0.15476190           0.04109589
 16         16            0.14285714           0.02739726
 17         17            0.15476190           0.02739726
 18         18            0.02380952           0.02739726
 19         19            0.00000000           0.01369863
 20         20            0.00000000           0.00000000
2个回答

一条曲线几乎看起来像另一条曲线的导数,有时这样的曲线对通过曲线连接相互绘制。例如,用于绘制速度与加速度的关系图以更好地查看周期。这是您的玩具数据的红色与蓝色:

在此处输入图像描述

有时会添加箭头和注释。我不知道这些情节的正确名称是什么。我听说过“相平面”图,但该术语也包括许多其他类型的图。

在这种情况下,数据点是连接的。对于更多和更嘈杂的数据,您可能需要某种仅靠近每个点的插值曲线。

更新:如果不是不言而喻,我不确定你所说的“反相关”是什么意思。我想你想展示两条曲线之间的关系,这在通常意义上是不起作用的。对于我展示的图表,您可以将其视为参数图,因为每个变量(蓝色和红色)都是参数(表中的“坐标”)的函数。

为了进行比较,这是NYT 天然气价格图表中此类图表的另一种应用

在此处输入图像描述

一个措施与另一个措施的对比(@xan 的回答)是一个好主意,除了我认为以这种方式加入这些点没有意义。只有当观察的顺序真的很重要时,它才有意义。我的理解是,它们是反相关的这一事实与它们的排序无关。

所以你应该把它们一个一个地画出来,以获得一堆点。使用像皮尔逊相关系数这样的指标来衡量相关性,你可能会得到一个负值,比如 -0.5 左右。

然后,您可以通过随机化测试证明这在统计上是显着的:

你有价值观:

blue0, blue1, ... , bluenred0, red1, ... redn

说您观察到的反相关是显着的并且不太可能偶然发生,这基本上意味着如果您不匹配bluekto redkfor all而是k随机匹配它们,那么生成的数据集不太可能显示这种相关性水平。

因此,您可以通过生成红色数据的许多随机排列,并计算排列后的红色值与原始蓝色的相关性来证明这一点。

对获得的相关值进行排序,看看真正的相关性有多极端。是前1%吗?0.1%?这可以让您估计偶然发生的可能性有多大。