区分聚类、盲信号分离和降维的特征是什么?

机器算法验证 聚类 主成分分析 降维 无监督学习
2022-04-18 23:11:54

input -> [process] -> output区分聚类、盲信号分离和降维的特征是什么

这篇 Wikipedia article可以看出,无监督学习有两种类型:

  • 聚类;
  • 盲信号分离

我以前从未听说过盲信号分离这个词。它与聚类有何不同,降维如何支持这一点?

2个回答

简短回答: 聚类和盲信号分离 (BSS) 通常在应用程序中一起使用,在这种情况下,BSS 算法首先作为预处理步骤来“减少问题的维度”。然后可以相应地“削减”原始输入,然后再将其输入聚类算法以优化分割现在的低阶问题。因为维度已经减少,聚类结果现在可以很容易地在 2 或 3 维中可视化。

在“输入-[过程]-输出”形式中,我们有一个链接的三步过滤器:

 input (high dimensional, mixed source) -> [Blind signal separation] ...
      -> ranking of features -> [Dimension reduction] -> lower dimensional inputs ...
            -> [Clustering] -> optimal segmentation.


详细说明:

假设您的输入是向量,即您的每个数据点/样本都有许多属性,比如说n其中。

聚类:

简单来说,聚类接受输入,将它们考虑在一个n维空间,并且,给定一个目标簇数,运行一个数学算法来决定每个簇的中心应该是什么,哪些点应该被分配到哪个簇。

因此,聚类本质上是将数据以数学方式分割成组(如果愿意,可以进行最佳分割)。

但是在原始向量输入上使用聚类的挑战是算法必须在n维度空间——这意味着它难以可视化,而且,如果许多属性是相关的,那么这些额外的维度在识别最佳集群的问题上并没有增加太多价值。

进入盲源分离...

盲源分离:

另一方面,盲信号分离 (BSS) 是将混合物分离成单独的成分。

同样,简单来说,假设您有一个过程将多个纯信号“混合”或混淆为一个聚合整体。例如,考虑从位于管弦乐队大厅中的多个麦克风录制录音,那里有许多乐器都演奏相同的旋律,但观众之间也有相当多的本地聊天。由此产生的录音是所有这些的混合。

这种情况下的问题是,从混合输入中,在不知道混合是如何组成的情况下,您能否获取输出(记录)并分离出各个输入向量?

因此,BSS 本质上是一个逆问题,您从混合输入开始,并尝试分离出进入混合过程的各个元素。

BSS、降维和聚类:

我一开始就提到集群和 BSS 经常一起使用。其原因带来了降维的概念。

BSS 的输入由混合信号和噪声组成(例如不相关的白噪声或不感兴趣的低相关源)。

BSS 的工作原理是从有关信号的许多“特征”(涉及每个向量的各个属性的数学表达式)中识别“解释”数据中最大变化的那些特征。

然后可以按降序排列这些特征。例如,通过采用前三个特征,可以得到更易于管理的维度来执行聚类。

一个典型的例子和实际应用:

因此,在一个典型的例子中,人们可能首先将 PCA(主成分分析)——一种 BSS 算法——应用于数据集,以“发现”对解释数据变化最有用的前 3 个特征集,然后仅对这 3 个特征使用数学聚类来识别可以将数据拆分成的段。

我已经看到这种组合方法非常成功地用于面向底部的声纳信号的分类(无监督学习)问题,以自动确定船只正在行驶的海底类型:是泥泞的、沙地的、岩石的,没有派一名潜水员下来检查。

因此,当结合使用时,这些技术可以成为非常强大的工具。

那篇维基百科的文章一团糟。难怪两年多来一直被贴上“清理”的标签。

如果您想了解聚类请不要从学习方面接近它

在机器学习方面,无监督学习是他们在没有任何标记的训练数据时求助的丑小鸭。但他们并不真正喜欢或理解它。因为实际上它正在做一些非常不同的事情。请注意,大多数聚类工作是在机器学习社区之外完成的(但在知识发现社区中),他们不会称之为无监督学习。

在学习中,你有一个目标。例如,您希望能够预测未来观察的价值。明确的目标尤其有助于评估,但也大大缩小了搜索空间。

在聚类分析中,您没有严格的目标。这是一种探索性方法,不幸的是搜索空间非常大,因此您需要大量的启发式和假设。你想探索你的数据,学习一些新的东西——在这种情况下发现一些新的结构。如果您有一种聚类方法可以提供您已经知道的结构,那么它实际上无法达到某种目标。然而,这就是聚类分析经常被处理和评估的方式:它能否发现我已经知道的结构?

降维是一种人们希望能够避免的技术(因为它意味着丢弃一些数据),但更高的数据复杂性通常意味着更短的处理时间。而且如果你的数据有冗余,先降维是很合理的。

减少维度的数量使以前无法处理的数据变得易于处理。它还有助于找到合适的距离函数,因为众所周知的“维度灾难”,欧几里得距离等流行距离在高维数据中效果不佳。随着维度的增加,数据集中的距离会集中并变得更加相似。由于大多数聚类算法都是基于距离的,因此它们无法找到聚类,因为对象之间的差异变得模糊。涉及到各个方面(我记得刚刚看到一篇文章讨论了大约 9 种不同的观点!),但你可以天真地将其视为中心极限定理的结果。给定足够的维度,距离变得正态分布在某个平均值附近,方差主要是您在各个维度上的噪声量。如果噪音太大,距离仅由噪音(而不是信号)决定,您的算法将失败。

BSS我不能告诉你太多。我对它的关注并不多。我记得在纯音频分析领域看到了基本思想(从 5 通道音频信号中分离出 4 个声音,我记得需要 n+1 个麦克风仅根据延迟来隔离 n 个声音?)这绝对不是无监督学习的基本技术...