我是主题建模和文本聚类领域的新手,我正在努力学习更多。我想使用 DBSCAN 对文本数据进行聚类。有很多关于如何在 python 上实现 DBSCAN 的帖子和资源,例如1、2、3但它们对我来说太难理解或在 python 中不理解。
我有一个 CSV 数据,其中包含他们编写的用户 ID 和消息,如下所示:
user.csv(csv 行数:400(#message))
userID messages
112 The car was broken and Kevin fixed it
.
.
.
我知道一些应用 DBSCAN 的步骤,例如:
- 删除停用词
- 查找相似度距离(我有一个执行余弦相似度的代码)
我也知道 sci-kit learn 在4处有演示,但我更喜欢手动实现,我可以看到代码中发生了什么。
如果您可以提供代码帮助我可以在我身边运行来学习它,那就太好了。