比较两个有序列表

数据挖掘 数据挖掘 统计数据
2022-02-16 00:56:18

嗨,如果有人能指出我正确的方向,我将不胜感激。我正在寻找一种算法或数学理论,用于计算两个有序列表之间的相似性,其中每个列表元素可以有 n 个子元素。我将用一个例子来解释:

假设我参加了一场棒球比赛,我记录了前 30 名击球手的击球顺序和击球顺序。我的列表是这样的,其中 P 是球员,S 是好球,B 是球。订单很重要。

L1: {P1=(S,S,S)}, {P2=(B,B,S)}, {P3=(B,B,S,S)}, ...

我的朋友去看棒球比赛并做同样的事情。后来,我们见面并比较我们的名单。我们发现我们的列表几乎相同,除了我记录了球员 16 的罢工,而我的朋友记录了一个球。我们在同一场比赛中有多少机会在球员 16 上犯了错误?

提前致谢...

2个回答

如果模型声明你有两个大小为 N 的向量(其中 N 是玩家总数,我们可能不知道),其中每个元素属于 {B,S} 序列的空间,可能是空的。如果然后定义两个任意序列之间的距离函数(例如,两个非空序列的归一化 Levenshtein 距离和一个缺失时的一些固定成本),则可以定义向量之间的余弦相似度。

(显然,在这种情况下,您只需将您的序列视为稀疏向量的紧凑表示。)

亚历克斯的答案是你将如何找出相似之处。要回答您的问题,还需要一个步骤,即提出相似度阈值。即一些相似性阈值,超过该阈值您可以说差异可能是错误。

如果您正在寻找资源以了解更多信息,我会推荐Han et all 的Data Mining Concepts and Techniques