我有两个列表要比较。List 1包含表示List2. 有时,它们是直接匹配,有时是一个单词匹配,有时是首字母缩略词等。示例如下:
List1 | List2
------------------------
great hall town | Great Hall
grt_town | Great Hall
gHall | Great Hall
great town | Great Hall
mind great town | Great Hall
有两个主要问题:
List2非常大(数百万条记录,长度都很短)List1记录有时非常不相关。有更长的前缀,后缀不在List2. 中的一些单词List2被简化为一个字母。
我隐约对聚类有一些想法,List2并试图找到质心和元素之间的距离List1。你认为这是一个起点吗?谢谢