我想了解如何计算聚类分析的准确性。我有一百篇文章。数据集如下所示:
Author Text Checked
Shakespeare ‘...’ yes
Keats ‘...’ no
...
在正文中,有一些作者的引述。已手动填写选中的列。我想做的是按作者对文本进行分组。我已经使用 kmeans 和 TfidfVectorizer 做到了。但是我想了解是否可以测试这种方法的准确性。你知道我该怎么做吗?如果不可能,请告诉我我可以考虑哪些其他方法?最好测试不同的方法并查看准确性水平。任何例子都会很棒。