我有两个数据集,它们是多维实值向量的列表。一个数据集(称之为是一个大尺寸,另一个(称它为)。此外,另一个要小得多,并且是较大的一个子集()。较小的那个,来自一些采样过程,我想做的是计算,较小的部分(从采样中获得)在较大的部分。另外,由于这些是实值向量,我无法直接将它们一一进行比较,因此可以使用聚类算法。一个数据集的大小也比另一个大.
较小数据集相对于较大数据集的百分比
数据挖掘
数据集
聚类
2022-02-13 13:33:09
1个回答
朴素的方法:定义相似度或距离函数,例如余弦相似度。
- 计算任意对之间的相似度得分
- 定义一个精度级别,比如说. 假设是两个向量在.
- 对于每一个, 找到集合
- 获得工会:
元素的比例它们“等于”中的一个元素是:
其它你可能感兴趣的问题