为什么 plt.plot(feature, '.') 中的水平线表示数据已正确洗牌?

数据挖掘 可视化 数据分析
2022-02-25 05:54:00

我正在关注 Mooc,在这个关于解释性数据分析中的可视化的讲座中,讲师声称,当根据特征值绘制行索引时,如果我们在特征值轴上有线条,则意味着数据已被正确打乱。我不明白为什么。

  1. 索引不应该在特征轴上只有一个值吗?
  2. 一根横线应该是表示所有指标的特征值都是统一的,不是随机的?

在此处输入图像描述

相反,在接下来的讲座中,讲师声称由于没有垂直线,数据没有被正确打乱:

在此处输入图像描述

我想我明白了,好像是这样,我会看到清晰的线条。但是我怎么能确定这些潜艇中没有隐藏更多的课程呢?

1个回答
  1. 索引不应该在特征轴上只有一个值吗?

对,那是正确的。在作为示例给出的图表上,这是不可见的,因为行索引太多(50000)。因此,不可能将特定索引与其相邻索引区分开来,但如果 X 轴被拉伸得足够长,就会看到每个索引都有一个特征值。

  1. 一根横线应该是表示所有指标的特征值都是统一的,不是随机的?

我认为这里可能有两种不同的混淆:

  • 水平线表示单个特征值均匀分布在索引中,相当于说索引对于这个特征值是随机的。换句话说,此特征值出现在特定索引处的机会与任何其他索引处相同。这就是作者的意思:任何特征值的顺序(索引)都是随机的。
  • 所有特征的值都没有统一,这可以从垂直点的密度在中间(比如 0.4-0.6)和极端(比如 0-0.2 和 0.8-1)附近不同的事实中看出。当然,使用标准直方图会更明显,它会在中间显示一种峰值,但在 0 和 1 的极值处有两个高条(从这两个特征值的实线可以看出,它们出现的频率更高)。

人们还可能会在此图上注意到,这些值存在某种潜在的离散分布:对于值 0 和 1 非常清楚,而且从所有白色水平线中也可以看出,这些值很少存在于数据中。