数据挖掘 - 使用无监督学习来设置监督分类是否合理？ - 吾爱随笔录

我有一个描述基因的生物数据集。总体思路是，有数千个这样的基因需要分类，所以如果 ML 可以对它们进行排序，我就可以知道哪些应该首先进入实验室进行功能研究。目前，我根据它们已知的生物学为这些基因的监督分类制作标签（例如，一些基因与与疾病相关的药物相互作用，所以我将它们标记为“最有可能导致疾病”，直到我有一个最后的第 4 个标签“不太可能导致疾病”）。我制作这些标签的方式似乎不可能没有偏见，因为我正在做出所有决定，所以我想知道我是否可以将我的决定与查看无监督模型如何对数据进行分组进行比较（例如，我

是否也可以使用无监督学习自行创建标签，或者这也太不可靠了，因为你不知道它为什么将某些基因组合在一起？还是单独执行此步骤实际上会使监督步骤变得多余？