您最有可能如何从头开始创建一个大型生产就绪图像训练数据集,包括图像分类任务的注释?我们将使用工业相机拍摄大量图像(约 100 万张)并将它们保存在 S3 存储桶中。您认为数据湖基础设施是否必要?
在您看来,在尽可能短的时间内注释图像的最合适方法是什么(不需要边界框)。到目前为止,我能够找到的解决方案如下:
- 使用基于 Web 的开源图像注释工具,如make-sense或LOST(问题:谁将注释图像?这些工具似乎不适合处理大量图像数据)。另见真棒数据标签
- 构建一个游戏化的 Web 应用程序,让用户注释图像并获得折扣码来激励他们
- 将第三方工具与Playment、Labelbox、Amazon Mechanical Turk等注释劳动力一起使用
有什么我错过的选择吗?原则上,可以为注释付费,但应避免或尽可能少。
对于这么大的数据库,在架构上是否应该考虑一些事情?