在 python 中存储图像以进行机器学习的最佳方法是什么

数据挖掘 机器学习 熊猫 图像分类 主成分分析 python-3.x
2022-02-14 13:45:23

我目前正在研究一个分类问题,该问题需要我对图像是否包含癌组织细胞进行分类。每个图像是 50x50x3 像素,3 用于 RGB 值。

到目前为止,我有一个 pandas 数据框,其中包含目标值、患者 ID、图像 ID 和相应图像的路径。

我可以使用访问图像

io.imread(df['path'])

所以我可以遍历所有图像来访问它们。现在的问题是,我在哪里存储图像以便我可以对它们进行主成分分析?

如果我只是将它存储在一个数据框中,它将包含 7500 列;每个像素值 1。我的数据集包含 280,000 张图像。这意味着我的数据框需要为 280,000x7500。我觉得有更好的方法来解决这个问题。

您对此事的意见将不胜感激。

2个回答

这可能有点复杂。

我通常会重复使用计算机视觉和深度学习软件来做到这一点。即使我不做深度学习。

特别是我使用 Pytorch,作为它与 Numpy 和 pandas 的桥梁。 这是一个教程

这允许我在需要时使用 GPU,并重用大量代码,因为对于深度学习和图像,有大量代码片段。

是的,pandas 不能很好地解决这个问题。您可以查看稀疏数据格式https://docs.scipy.org/doc/scipy/reference/sparse.html

或者也许检查它是如何在 Tensorflow 中完成的。