数据挖掘 - 在大量短文本数据中进行模糊字符串匹配的正确数据科学方法是什么？ - 吾爱随笔录

我有两个列表要比较。List 1包含表示List2. 有时，它们是直接匹配，有时是一个单词匹配，有时是首字母缩略词等。示例如下：

   List1           |  List2
  ------------------------
   great hall town | Great Hall
   grt_town        | Great Hall      
   gHall           | Great Hall
   great town      | Great Hall
   mind great town | Great Hall

有两个主要问题：

List2非常大（数百万条记录，长度都很短）
List1记录有时非常不相关。有更长的前缀，后缀不在List2. 中的一些单词List2被简化为一个字母。

我隐约对聚类有一些想法，List2并试图找到质心和元素之间的距离List1。你认为这是一个起点吗？谢谢