文档[更新]上的 DBSCAN 聚类?

数据挖掘 Python 聚类 文本挖掘 数据库扫描
2022-02-21 20:30:11

我是主题建模和文本聚类领域的新手,我正在努力学习更多。我想使用 DBSCAN 对文本数据进行聚类。有很多关于如何在 python 上实现 DBSCAN 的帖子和资源,例如123但它们对我来说太难理解或在 python 中不理解。
我有一个 CSV 数据,其中包含他们编写的用户 ID 和消息,如下所示:

user.csv(csv 行数:400(#message))

userID         messages
112   The car was broken and Kevin fixed it
.
.
.

我知道一些应用 DBSCAN 的步骤,例如:

  1. 删除停用词
  2. 查找相似度距离(我有一个执行余弦相似度的代码)

我也知道 sci-kit learn 在4处有演示,但我更喜欢手动实现,我可以看到代码中发生了什么。

如果您可以提供代码帮助我可以在我身边运行来学习它,那就太好了。

1个回答

比尔金!

Anony-Mousse 提出了正确的问题并给出了很好的建议。在使用自行实现的 DBSCAN 代码之前 - 将其写在纸上。也许对于您的数据库而言,它根本不是最好的算法,因此请先尝试 sci-kit learn 实现以查看结果。

这里是 Python 实现https://github.com/chrisjmccormick/dbscan/blob/master/dbscan.py这里是理论https://github.com/chrisjmccormick/dbscan/blob/master/dbscan.py

祝你好运!