如何在 Python 中比较 10000 个数据帧?
数据挖掘
Python
数据框
热图
2022-03-03 13:04:45
1个回答
简单的方法:
- 在两个这样的数据帧之间定义适当的距离或相似性度量。无论这代表什么游戏,都不太可能有一个标准的衡量标准。例如,您可以有一个距离度量,它对每个数据帧中的每个值求和,然后返回两个值之间的绝对差,但这不太可能正确表示游戏的语义。
- 将两个这样的数据帧之间的距离或相似度度量作为函数实现
- 为每对可能的数据帧调用此函数(即 49,995,000 次比较,这是可行的)。
公平警告:无序矩阵 10k x 10k 的热图可能不太可利用。
请注意,一旦有了距离/相似度函数,您还可以:
- 使用聚类算法按相似度对数据帧进行分组
- 检测异常值
