较小数据集相对于较大数据集的百分比

数据挖掘 数据集 聚类
2022-02-13 13:33:09

我有两个数据集,它们是多维实值向量的列表。一个数据集(称之为A={x1,x2,x3,...,xn}是一个大尺寸,另一个(称它为B={x1,x2,x3,...,xm})。此外,另一个要小得多,并且是较大的一个子集(BA)。较小的那个B,来自一些采样过程,我想做的是计算,较小的部分(从采样中获得)在较大的部分。另外,由于这些是实值向量,我无法直接将它们一一进行比较,因此可以使用聚类算法。一个数据集的大小也比另一个大|A|>>|B|.

1个回答

朴素的方法:定义相似度或距离函数,例如余弦相似度。

  1. 计算任意对之间的相似度得分(xiA,yjB)
  2. 定义一个精度级别,比如说ϵ=0.000001. 假设是两个向量在A.
  3. 对于每一个yjB, 找到集合c(yj)={xiA | sim(xi,yj)1ϵ}
  4. 获得工会:C(B)={xiA | yjB:xic(yj)}

元素的比例A它们“等于”中的一个元素B是:

|C(B)||A|