我有一个单词列表(实际上是名称),我想在其上应用一些实体解析。我的第一个猜测是创建相似名称的集群,以便我可以从多个名称形状中提取代表实体。
我需要指定我没有标记数据,并且我没有进行文档分析(例如,这与改进聚类结果不同),只有一个原始列表。
为此,根据我能读到的内容,我尝试了两种方法:
对我的名字应用 n-gram 转换并使用 k-means 聚类
应用 n-gram 变换,计算相似度矩阵(余弦距离)并将其用于亲和力传播
这两种方法都给了我有趣的结果,但我无法理解一些结果。例如,我得到以下集群:
Geronese, Varonese, Veronefe, Veronese, Veronesse, ...
Cameroni, Veronèse, Veronèse P., Veronése, Veronêse
为什么我会得到两个看起来如此相似的形状的不同集群(除了Cameroni我不知道它为什么在那个集群中)?这是 k-means 算法调整中的问题吗?
此外,我尝试使用轮廓指标来找到最佳集群数量,但无论集群数量是多少,我都会得到完全相同的值(0.315 代表它的价值)。
至于亲和力传播方法,我的集群的轮廓分数较低,并且我得到了一些类似的效果,比如拥有这种集群:
Birttetti, Laruette, Laruelle, Larvette, Laurette, ...
有什么想法可以改善我的结果(如果可能的话)?或者也许有比我更好的方法的想法?