我有一个电子邮件主题列表,例如
<XYZ> commented on <ABC>
Weekly review for <Company>
Your account is ready
我想在其中找到模式,以便对它们进行分组。
我可以使用一个众所周知的算法吗?
我有一个电子邮件主题列表,例如
<XYZ> commented on <ABC>
Weekly review for <Company>
Your account is ready
我想在其中找到模式,以便对它们进行分组。
我可以使用一个众所周知的算法吗?
您可能需要尝试一些不同的方法。让我概述一下您可以尝试的两种不同的方法。
您可以尝试将无监督主题建模应用于您的主题行。 LDA可能是最广泛使用的方法。
主题建模试图找到有限数量的“主题”,并根据主题行中的单词将每个主题行分配给一个或多个“主题”。
您可以尝试使用集群。从广义上讲,您会找到某种方法将每个主题行映射到一个特征向量,然后应用一些无监督的聚类方法。这两个步骤中的每一个都有许多选项。要获得特征向量,您可以尝试任何现有的词嵌入;例如,您可以尝试word2vec。对于聚类,有很多很多的聚类算法;例如,您可以尝试 k-means。我建议您对这些主题进行一些阅读,然后对它们进行一些试验。
一个警告。不要把你的期望值设得太高。主题行通常很短,这将使这些技术很难找到聚类。换句话说,你在一个已知的对现有 NLP 和 ML 技术来说很难的机制中运行。
如果您能找到任何其他可能有助于对类似电子邮件进行聚类的功能(例如,发件人的身份?发送邮件的邮件列表,如果有的话?),包括该信息可能会提高聚类的质量。