数据挖掘 - 哪个分类器在处理不属于任何训练类的测试查询时是有效的？ - 吾爱随笔录

数据挖掘机器学习分类支持向量机

2022-02-17 19:45:19

假设分类器训练了5个类，输入的查询内容不属于任何一个训练好的类数据。

朴素贝叶斯因此在这里提供随机类。在这种情况下，哪个分类器最适合？

1个回答

你已经训练了一个模型来识别或区分几个特定的类。因此，当有一个新的测试样本（根据您的知识）不属于任何此类时，该模型会将其拟合到最相似的类中。

当然，这是一种非常通用的表达方式。无论您使用概率图形模型（如朴素贝叶斯）、线性或非线性分类器等，要考虑的行为和事情都会有所不同。然而，原理是一样的：模型已经学习了你用来匹配特定类的训练数据的特征之间的关系。

更具体地说，如果您使用概率方法，则可以使用属于某个类的概率并定义一个阈值。因此，如果没有给出高于某个值（比如 65%）的概率，那么您对结果的信心就会很低，您可能会说“我不能肯定地说它是否属于这 5 个类别中的任何一个”。

其他非概率方法有一些有趣的方法可以根据概率对新示例进行评分。检查此链接以获取 SVM（https://stats.stackexchange.com/questions/55072/svm-confidence-according-to-distance-from-hyperline），这实际上是 Python scikit-learn 中使用的方法：http:// /scikit-learn.org/stable/modules/svm.html#scores-and-probabilities

K-Nearest-Neighbors 可以通过分析 K 或 J（其中 J < K）最近邻居的距离来完成类似的事情，并且如果它们以某种比例接近您的测试样本，则只需相信结果（通常说，这可以通过多种方式完成）。

现在，基于深度学习的方法正在尝试以无监督的方式学习特征，因此您的问题可以以更有趣的方式解决。但是，它不再是严格的分类，您也不会拥有尝试它所需的数据量和服务器（只是说:)）

其它你可能感兴趣的问题