我为我的用户提供了一个离线音乐库。我的目标是了解我的用户正在寻找什么,这意味着将原始用户搜索翻译为:音乐艺术家、歌曲、专辑,然后将音乐添加到公司库中。
将常见的短句分组为单个实体的建议聚类算法是什么。例子:
- 泰勒斯威夫特 摇一摇
- 泰勒·斯威夫特
- 摆脱它
- Twylor Swift 摇一摇
我尝试了这个示例,并且对于特定数量的集群 (K) 工作正常,其中 K < N | K <= N。但是由于搜索是不可预测的,因此需要找到一种方法来自动化集群的数量:我的目标是集群 2 个或更多相似的项目,更不用说在独立集群中进行单个搜索了,例如:
集群 1:
- 泰勒斯威夫特 摇一摇
- 泰勒·斯威夫特
- 摆脱它
- Twylor Swift 摇一摇
集群 2
- 阿维奇
- 艾维奇伊维萨岛
- 阿维奇电子之家
集群 3
- 胡安·加布里埃尔
集群 4
- 阿黛尔
集群 5
- 布兰妮·斯皮尔斯
- 布兰妮斯皮尔斯 VMA 2016