我需要一个能够接收营养信息图表图像作为输入并告诉产品含糖量的模型。这将是一个 3 级分类问题(如果糖低于 5g,则为低,如果在 5 和 22.5g 之间,则为中等,如果超过 22.5g,则为高)。我已经准备好所有数据,总共有 16000 张图像。但是,我无法使用数据训练合适的模型。我尝试了一个简单的 3 个卷积层的卷积神经网络、来自 keras 的预训练 inception resnet v2,甚至还有一个注意力模型(Github)。结果总是一样的,准确度等于最常见类别的样本比例。因此,这些模型无法解决问题,只能赌最有可能的情况。
什么样的网络能够解决这个问题?我从未处理过必须“阅读”和分类文本的网络。