应用 PCA 并使用缩减数据集后,我想删除异常值。为此,我的想法是计算 kNN 图并删除那些内部度数为 0 的顶点(点)。也就是说,它们不在除自身之外的任何其他点的附近。
我的问题是,与其合作是否是个好主意距离,我应该添加考虑到每个坐标解释的方差的权重。
这个想法是,如果坐标 1 解释的方差为 0.93,而坐标 2 仅 0.05,那么这些点在坐标 2 上的投影上应该“靠近”。第二个坐标上的距离应该对于异常值检测,比第一个重要得多。
第一种方法是简单地使用解释为权重的方差的倒数。这个想法有意义吗?如果是这样,实施它的正确方法是什么?