我通过确定这些词在文本中的出现并通过分箱创建它们的离散分布来测量特定文本(Silmarillion)中某些词(专有名词)的“接近度”。
然后,我将这些分布(每个 bin 的出现百分比)与 Hellinger 距离进行比较,并在结果距离矩阵上运行 Mathematica 的“FindClusters”函数。输出显示了单词在文本中是如何聚集的。我把它留给 Mathematica 来确定集群的数量。到现在为止还挺好。
显然,我选择的 bin 宽度会影响我尝试聚类的分布,所以我想知道是否有任何衡量聚类的辨别力的方法;“一个簇中的所有元素”和“每个元素都是它自己的簇”之间的最大信息量。
然后,我将运行一个增加 bin 宽度的循环,以找到告诉我“最多”关于文本结构的聚类。
指向来源的链接实际上就足够了 - 我找不到任何东西,可能是因为我不确定适当的搜索词。