如何在 Python 中比较 10000 个数据帧?

数据挖掘 Python 数据框 热图
2022-03-03 13:04:45

我有 10000 个这样的数据框:在此处输入图像描述

每个数据帧对应一个不同的纸牌游戏(因此表中的数字也不同),我想将这些数据帧一起比较。例如,我想比较这些数据帧的热图。无论如何在Python中可以做到这一点?是否有任何工具集,以便我可以在一个图表或类似的东西中比较所有这些?因为我想看到所有这 10000 个数据帧的趋势。

1个回答

简单的方法:

  1. 在两个这样的数据帧之间定义适当的距离或相似性度量。无论这代表什么游戏,都不太可能有一个标准的衡量标准。例如,您可以有一个距离度量,它对每个数据帧中的每个值求和,然后返回两个值之间的绝对差,但这不太可能正确表示游戏的语义。
  2. 将两个这样的数据帧之间的距离或相似度度量作为函数实现
  3. 为每对可能的数据帧调用此函数(即 49,995,000 次比较,这是可行的)。

公平警告:无序矩阵 10k x 10k 的热图可能不太可利用。

请注意,一旦有了距离/相似度函数,您还可以:

  • 使用聚类算法按相似度对数据帧进行分组
  • 检测异常值