使用 DBSCAN 算法对推文数据进行聚类
数据挖掘
scikit-学习
聚类
python-3.x
文本
数据库扫描
2022-02-28 06:09:12
1个回答
两件事:eps和文本的定量表示。
您会看到只有 eps=0.15 有很多集群。但是对于其他人来说就少了很多。这是需要优化的超参数(和 min_samples)
另一件更重要的事情是你使用文本的定量表示。您说的是 Bag of Words、TFIDF、Spacy Vectors 以及 Word2Vec,但是您对它们进行了调整吗?你有没有树嵌入等等等等。这里有很多改进,当它好的 dbscan 会更好地运行。

