双向无监督学习

机器算法验证 机器学习
2022-03-14 22:03:54

我有两个数据集,A 和 B。两者都有大量的连续变量。我相信 A 与 B 相关。但是 A 或 B 中都没有定义的类。我可以做一堆相关性测试,看看 A 中的任何变量是否与 B 强相关。但是 A 中的许多变量是可能相互依赖,对于 B 也是如此。我可以对 A 和 B 执行无监督学习,并尝试将每个集群关联起来。但是因为 A 的集群是在不知道 B 的情况下推导出来的,所以 A 集群可能与 B 没有可能的相关性。这是我的问题。是否存在专注于此类问题的机器学习和/或统计领域?如果是这样,我在哪里可以看?

1个回答

你可能想看看这些论文:

F.巴赫,密歇根州乔丹。典型相关分析的概率解释。技术报告 688,统计系,加州大学伯克利分校,2005

Cédric Archambeau、Nicolas Delannay 和 Michel Verleysen。2006. 稳健的概率预测。第 23 届机器学习国际会议论文集 (ICML '06)。

它们都给出了 CCA 的图形模型解释,将其形成为(略有不同的)概率模型,并展示了如何使用 EM 算法解决这些问题。

虽然它可能不完全符合您的要求,但您的问题似乎可以通过这种方式表述为图形模型。根据生成的模型的外观,您可能可以使用现成的方法来解决它 - 参见例如这个软件包列表