我正在关注 Mooc,在这个关于解释性数据分析中的可视化的讲座中,讲师声称,当根据特征值绘制行索引时,如果我们在特征值轴上有线条,则意味着数据已被正确打乱。我不明白为什么。
- 索引不应该在特征轴上只有一个值吗?
- 一根横线应该是表示所有指标的特征值都是统一的,不是随机的?
相反,在接下来的讲座中,讲师声称由于没有垂直线,数据没有被正确打乱:
我想我明白了,好像是这样,我会看到清晰的线条。但是我怎么能确定这些潜艇中没有隐藏更多的课程呢?
我正在关注 Mooc,在这个关于解释性数据分析中的可视化的讲座中,讲师声称,当根据特征值绘制行索引时,如果我们在特征值轴上有线条,则意味着数据已被正确打乱。我不明白为什么。
相反,在接下来的讲座中,讲师声称由于没有垂直线,数据没有被正确打乱:
我想我明白了,好像是这样,我会看到清晰的线条。但是我怎么能确定这些潜艇中没有隐藏更多的课程呢?
- 索引不应该在特征轴上只有一个值吗?
对,那是正确的。在作为示例给出的图表上,这是不可见的,因为行索引太多(50000)。因此,不可能将特定索引与其相邻索引区分开来,但如果 X 轴被拉伸得足够长,就会看到每个索引都有一个特征值。
- 一根横线应该是表示所有指标的特征值都是统一的,不是随机的?
我认为这里可能有两种不同的混淆:
人们还可能会在此图上注意到,这些值存在某种潜在的离散分布:对于值 0 和 1 非常清楚,而且从所有白色水平线中也可以看出,这些值很少存在于数据中。