数据挖掘 - 如何信任使用 ML 模型生成的标签？ - 吾爱随笔录

如何信任使用 ML 模型生成的标签？

数据挖掘机器学习深度学习数据挖掘多标签分类标签

2022-03-03 15:49:05

我有一个患者记录数据集。但我不知道他是否患有癌症 +ve。所以，我的数据集中没有标签。

现在我可以运行机器学习模型，比如聚类来生成标签。

例如：我可以运行聚类以根据相似性对两个类进行分组，并找出谁都属于 +ve 和 -ve 类。

当然，我们不能坐下来手动查看患者的数据，以了解他是否真的患有癌症 +ve。

那么当我们通过机器学习模型（如上面的聚类）生成标签时，这是一种推荐的方法吗？

它是否用于人们没有基本事实并且仅依赖基于 ML 模型的标签的行业/实时？

我们如何才能信任这些生成的标签？

如果它是一个人，我知道它是可以信任的。但是我们如何相信这些标签。

工业中是否使用了类似的东西，它们如何解决信任问题？

1个回答

那么当我们通过机器学习模型（如上面的聚类）生成标签时，这是一种推荐的方法吗？只有当你真的可以制作出高度不同的 2 个集群/组时。这不太可能发生，尤其是对于复杂和高维的数据集。原因之一是聚类算法比监督算法弱。如果你能找到一个好的表示（看看 Bengio 的表示学习），即高度区分的嵌入，那么它可能会起作用。

它是否用于人们没有基本事实并且仅依赖基于 ML 模型的标签的行业/实时？它是一种选择，绝对可以尝试，但不能依赖它。

我们如何才能信任这些生成的标签？只要您可以通过基本事实或人类查看集群来验证它，就没有问题。

工业中是否使用了类似的东西，它们如何解决信任问题？它是可能的解决方案之一，我个人总是先尝试迁移学习。特别是对于像你这样的问题，很可能已经有一些预训练的模型。您只需要一些标签工具，用于 1000 个样本（这需要几个小时，但值得）。看看这个工具。

其它你可能感兴趣的问题

上一篇在嵌入上进行 1 与所有查找的最快方法下一篇句子中的亵渎程度