在 NLP 中,哪种类型的模型(生成式或判别式)对数据量更敏感以更好地泛化?参考?
这与这两种类型捕获数据概率的方式有关(连接概率与条件概率)?
在 NLP 中,哪种类型的模型(生成式或判别式)对数据量更敏感以更好地泛化?参考?
这与这两种类型捕获数据概率的方式有关(连接概率与条件概率)?
我的回答不仅限于 NLP,而且我认为 NLP 在这方面与其他类型的学习没有什么不同。
提供了一个有趣的技术外观:On Discriminative vs. Generative Classifiers - Andrew Ng,Michael Jordan。
现在更非正式的意见:
判别分类器直接攻击学习问题。最后,您构建了预测分类器,这意味着您构建了一个估计. 生成模型通过贝叶斯定理到达相同的估计,但它确实估计了联合概率并因此获得了条件。
直观地说,生成分类器需要更多数据,因为建模的空间通常大于判别模型的空间。更多参数意味着需要更多数据。有时不仅参数,甚至联合分布的形式也更难建模而不是条件。
但是,如果您有足够的可用数据,那么生成模型应该会提供更强大的模型也是可以预期的。这些是直觉。Vapnik 曾经问过,当我们要解决的是有条件的问题时,为什么要进行联合分配?如果你只对预测感兴趣,他似乎是对的。
我的观点是,有许多因素会影响构建有条件的生成模型,其中包括形式主义的复杂性、输入数据的复杂性、将结果扩展到预测之外的灵活性以及模型本身。如果判别模型作为可用数据的函数具有优势,那可能是一个很小的差距。