假设分类器训练了5个类,输入的查询内容不属于任何一个训练好的类数据。
朴素贝叶斯因此在这里提供随机类。在这种情况下,哪个分类器最适合?
假设分类器训练了5个类,输入的查询内容不属于任何一个训练好的类数据。
朴素贝叶斯因此在这里提供随机类。在这种情况下,哪个分类器最适合?
你已经训练了一个模型来识别或区分几个特定的类。因此,当有一个新的测试样本(根据您的知识)不属于任何此类时,该模型会将其拟合到最相似的类中。
当然,这是一种非常通用的表达方式。无论您使用概率图形模型(如朴素贝叶斯)、线性或非线性分类器等,要考虑的行为和事情都会有所不同。然而,原理是一样的:模型已经学习了你用来匹配特定类的训练数据的特征之间的关系。
更具体地说,如果您使用概率方法,则可以使用属于某个类的概率并定义一个阈值。因此,如果没有给出高于某个值(比如 65%)的概率,那么您对结果的信心就会很低,您可能会说“我不能肯定地说它是否属于这 5 个类别中的任何一个”。
其他非概率方法有一些有趣的方法可以根据概率对新示例进行评分。检查此链接以获取 SVM(https://stats.stackexchange.com/questions/55072/svm-confidence-according-to-distance-from-hyperline),这实际上是 Python scikit-learn 中使用的方法:http:// /scikit-learn.org/stable/modules/svm.html#scores-and-probabilities
如果您使用随机森林,您可以使用每棵树的投票以类似的方式定义置信率(https://stats.stackexchange.com/questions/94845/how-to-estimate-confidence-level-for-支持向量机或随机森林)
K-Nearest-Neighbors 可以通过分析 K 或 J(其中 J < K)最近邻居的距离来完成类似的事情,并且如果它们以某种比例接近您的测试样本,则只需相信结果(通常说,这可以通过多种方式完成)。
现在,基于深度学习的方法正在尝试以无监督的方式学习特征,因此您的问题可以以更有趣的方式解决。但是,它不再是严格的分类,您也不会拥有尝试它所需的数据量和服务器(只是说:))