数据挖掘 - 在 python 中存储图像以进行机器学习的最佳方法是什么 - 吾爱随笔录

我目前正在研究一个分类问题，该问题需要我对图像是否包含癌组织细胞进行分类。每个图像是 50x50x3 像素，3 用于 RGB 值。

到目前为止，我有一个 pandas 数据框，其中包含目标值、患者 ID、图像 ID 和相应图像的路径。

我可以使用访问图像

io.imread(df['path'])

所以我可以遍历所有图像来访问它们。现在的问题是，我在哪里存储图像以便我可以对它们进行主成分分析？

如果我只是将它存储在一个数据框中，它将包含 7500 列；每个像素值 1。我的数据集包含 280,000 张图像。这意味着我的数据框需要为 280,000x7500。我觉得有更好的方法来解决这个问题。

您对此事的意见将不胜感激。