衡量我的多类分类 NN 准确性的最有效方法是什么?

数据挖掘 神经网络 喀拉斯 多类分类 准确性
2022-02-17 06:27:11

我对数据科学比较陌生,对如何测量多类神经网络的准确性感到困惑。我正在构建的模型试图用 20 种不同的结果来预测给定事件的结果——标签存在一些不平衡,频率最高的标签约为总数的 15%,而频率最低的标签约为 1%。我试图分类的事件很难预测,我会对所有事件的 20% 左右的准确率感到满意 - 但是我担心当我实现这一点时,我的模型将只是预测最频繁的类别一直以来,并且只是幸运地在其他足够多的情况下将整体准确率提高到 20%。我正在使用 keras 的“分类交叉熵”损失函数和“准确性” 公制 - 这些是最适合问题的吗?哪些其他指标最适合此类问题?很高兴参考文献来帮助我理解这个问题。

我了解二元分类的混淆矩阵,但是对于多类分类,我不知道如何将这些原则应用于多类问题,同时确保我的模型不仅仅是预测最受欢迎的课程并幸运地找到足够多的其他课程来达到我的目标。

提前感谢您的任何帮助!

1个回答

Keras 有一些用于多类神经网络的准确度指标。

如果您想从头开始实施,还有其他一些方法。取自:https ://www.sciencedirect.com/science/article/abs/pii/S0306457309000259 如果您想从头开始实施,还有其他一些方法。

这些方法可以很好地解决大多数问题,并与良好的交叉验证方法和泄漏预防相结合。

拥有一个不平衡的数据集总是会带来挑战,但是选择一个不会过多惩罚结果的指标,比如 Top K 分类准确度与本文建议的 n-fold 交叉验证相结合,通常足以拥有一个可靠的评估程序,您可以使用在。