数据挖掘 - 衡量我的多类分类 NN 准确性的最有效方法是什么？ - 吾爱随笔录

我对数据科学比较陌生，对如何测量多类神经网络的准确性感到困惑。我正在构建的模型试图用 20 种不同的结果来预测给定事件的结果——标签存在一些不平衡，频率最高的标签约为总数的 15%，而频率最低的标签约为 1%。我试图分类的事件很难预测，我会对所有事件的 20% 左右的准确率感到满意 - 但是我担心当我实现这一点时，我的模型将只是预测最频繁的类别一直以来，并且只是幸运地在其他足够多的情况下将整体准确率提高到 20%。我正在使用 keras 的“分类交叉熵”损失函数和“准确性” 公制 - 这些是最适合问题的吗？哪些其他指标最适合此类问题？很高兴参考文献来帮助我理解这个问题。

我了解二元分类的混淆矩阵，但是对于多类分类，我不知道如何将这些原则应用于多类问题，同时确保我的模型不仅仅是预测最受欢迎的课程并幸运地找到足够多的其他课程来达到我的目标。

提前感谢您的任何帮助！