我正在尝试对大量输出标签(1000)进行多类分类。
我使用 KNN 构建了一个模型。给出的准确度accuracy = knn.score(X_test, y_test)为 0.5。
这是否意味着给定输入,模型能够在 50% 的时间内预测数据属于哪个标签?如果是,我会直观地说这很好,因为随机选择标签的概率为 0.1%。
我正在尝试对大量输出标签(1000)进行多类分类。
我使用 KNN 构建了一个模型。给出的准确度accuracy = knn.score(X_test, y_test)为 0.5。
这是否意味着给定输入,模型能够在 50% 的时间内预测数据属于哪个标签?如果是,我会直观地说这很好,因为随机选择标签的概率为 0.1%。
假设它确实是一个多类问题而不是多标签问题。
0.5 的准确度意味着一半的实例被正确分类。这也意味着该模型能够在一半的时间内生成正确的类。对于您的测试数据,新数据的结果可能仍会有所不同。
如果这是一个好分数取决于更多的类的数量。很多时候,一个类别的代表比其他类别更多。ZeroR 分数是一个很好的基准。
假设你有 10 个班级,A班占总人口的 30%。一个随机过程将达到 0.1 的准确度,一个简单地说“A 级”的过程将发布 0.3 的准确度。