营养图像分类任务

数据挖掘 神经网络 图像分类 注意机制 深度学习
2022-02-26 13:20:16

我需要一个能够接收营养信息图表图像作为输入并告诉产品含糖量的模型。这将是一个 3 级分类问题(如果糖低于 5g,则为低,如果在 5 和 22.5g 之间,则为中等,如果超过 22.5g,则为高)。我已经准备好所有数据,总共有 16000 张图像。但是,我无法使用数据训练合适的模型。我尝试了一个简单的 3 个卷积层的卷积神经网络、来自 keras 的预训练 inception resnet v2,甚至还有一个注意力模型(Github)。结果总是一样的,准确度等于最常见类别的样本比例。因此,这些模型无法解决问题,只能赌最有可能的情况。

什么样的网络能够解决这个问题?我从未处理过必须“阅读”和分类文本的网络。

1个回答

另一种选择是将已建立的光学字符识别(OCR) 系统应用于原始图像。将原始图像转换为纯文本后,将相关数据放入表格数据框中。一旦进入表格数据框,就可以拟合深度学习或传统的机器学习模型。

构建端到端的深度学习系统可能很诱人。然而,有些问题最好通过子系统的组合来解决。这些子系统可能包括人类专业知识、规则、传统机器学习以及少量的深度学习。