数据挖掘 - 哪种类型的模型可以更好地泛化生成模型或判别模型？ - 吾爱随笔录

数据挖掘 nlp 生成模型概括判别模型

2022-02-27 06:12:01

在 NLP 中，哪种类型的模型（生成式或判别式）对数据量更敏感以更好地泛化？参考？

这与这两种类型捕获数据概率的方式有关（连接概率与条件概率）？

1个回答

我的回答不仅限于 NLP，而且我认为 NLP 在这方面与其他类型的学习没有什么不同。

现在更非正式的意见：

判别分类器直接攻击学习问题。最后，您构建了预测分类器，这意味着您构建了一个估计 $p(y|x)$ . 生成模型通过贝叶斯定理到达相同的估计，但它确实估计了联合概率并因此获得了条件。

直观地说，生成分类器需要更多数据，因为建模的空间通常大于判别模型的空间。更多参数意味着需要更多数据。有时不仅参数，甚至联合分布的形式也更难建模而不是条件。

但是，如果您有足够的可用数据，那么生成模型应该会提供更强大的模型也是可以预期的。这些是直觉。Vapnik 曾经问过，当我们要解决的是有条件的问题时，为什么要进行联合分配？如果你只对预测感兴趣，他似乎是对的。

我的观点是，有许多因素会影响构建有条件的生成模型，其中包括形式主义的复杂性、输入数据的复杂性、将结果扩展到预测之外的灵活性以及模型本身。如果判别模型作为可用数据的函数具有优势，那可能是一个很小的差距。

其它你可能感兴趣的问题