使用无监督学习来设置监督分类是否合理?

数据挖掘 机器学习 无监督学习 监督学习
2022-03-02 10:54:08

我有一个描述基因的生物数据集。总体思路是,有数千个这样的基因需要分类,所以如果 ML 可以对它们进行排序,我就可以知道哪些应该首先进入实验室进行功能研究。目前,我根据它们已知的生物学为这些基因的监督分类制作标签(例如,一些基因与与疾病相关的药物相互作用,所以我将它们标记为“最有可能导致疾病”,直到我有一个最后的第 4 个标签“不太可能导致疾病”)。我制作这些标签的方式似乎不可能没有偏见,因为我正在做出所有决定,所以我想知道我是否可以将我的决定与查看无监督模型如何对数据进行分组进行比较(例如,我

是否也可以使用无监督学习自行创建标签,或者这也太不可靠了,因为你不知道它为什么将某些基因组合在一起?还是单独执行此步骤实际上会使监督步骤变得多余?

1个回答
  • 使用无监督学习来设置监督分类是否合理?

绝对地。这是 ML 中的常见策略。正如您自己所说,使用来自数据本身的信息具有减少偏见的好处。

  • 是否也可以使用无监督学习来创建标签?

技术上是的。但是,一些聚类技术要求您指定聚类的数量,这没有帮助。正如你所说,如果你能以令人满意的方式对数据点进行聚类,你就不再需要监督学习了。此外,事实上,如果您的场景要求您了解集群的区别,您可能不会幸运,具体取决于出现的集群。它们并不总是可以解释的。

我的建议是将您的分类问题变成回归问题。1.0 最有可能导致疾病,0.0 最不可能。这样,您一开始就不必担心需要多少标签。