如何信任使用 ML 模型生成的标签?

数据挖掘 机器学习 深度学习 数据挖掘 多标签分类 标签
2022-03-03 15:49:05

我有一个患者记录数据集。但我不知道他是否患有癌症 +ve。所以,我的数据集中没有标签。

现在我可以运行机器学习模型,比如聚类来生成标签。

例如:我可以运行聚类以根据相似性对两个类进行分组,并找出谁都属于 +ve 和 -ve 类。

当然,我们不能坐下来手动查看患者的数据,以了解他是否真的患有癌症 +ve。

那么当我们通过机器学习模型(如上面的聚类)生成标签时,这是一种推荐的方法吗?

它是否用于人们没有基本事实并且仅依赖基于 ML 模型的标签的行业/实时?

我们如何才能信任这些生成的标签?

如果它是一个人,我知道它是可以信任的。但是我们如何相信这些标签。

工业中是否使用了类似的东西,它们如何解决信任问题?

1个回答

那么当我们通过机器学习模型(如上面的聚类)生成标签时,这是一种推荐的方法吗?只有当你真的可以制作出高度不同的 2 个集群/组时。这不太可能发生,尤其是对于复杂和高维的数据集。原因之一是聚类算法比监督算法弱。如果你能找到一个好的表示(看看 Bengio 的表示学习),即高度区分的嵌入,那么它可能会起作用。

它是否用于人们没有基本事实并且仅依赖基于 ML 模型的标签的行业/实时?它是一种选择,绝对可以尝试,但不能依赖它。

我们如何才能信任这些生成的标签?只要您可以通过基本事实或人类查看集群来验证它,就没有问题。

工业中是否使用了类似的东西,它们如何解决信任问题?它是可能的解决方案之一,我个人总是先尝试迁移学习。特别是对于像你这样的问题,很可能已经有一些预训练的模型。您只需要一些标签工具,用于 1000 个样本(这需要几个小时,但值得)。看看这个工具。