在大量短文本数据中进行模糊字符串匹配的正确数据科学方法是什么?

数据挖掘 聚类 大数据
2022-03-16 12:09:10

我有两个列表要比较。List 1包含表示List2. 有时,它们是直接匹配,有时是一个单词匹配,有时是首字母缩略词等。示例如下:

   List1           |  List2
  ------------------------
   great hall town | Great Hall
   grt_town        | Great Hall      
   gHall           | Great Hall
   great town      | Great Hall
   mind great town | Great Hall

有两个主要问题:

  1. List2非常大(数百万条记录,长度都很短)

  2. List1记录有时非常不相关。有更长的前缀,后缀不在List2. 中的一些单词List2被简化为一个字母。

我隐约对聚类有一些想法,List2并试图找到质心和元素之间的距离List1你认为这是一个起点吗?谢谢

1个回答

你可以试试这个:

  1. 从 List2 中获取不同的记录
  2. 清除任何无关字符或符号的 List1
  3. 使用像 Python 的模糊逻辑包这样的模糊逻辑它有部分匹配选项。