数据挖掘 - 如何进行基于 TF-IDf 的分析？ - 吾爱随笔录

问题陈述：

我们有包含单词列表的文档。总体而言，这些文件分为 2 组（例如，质量好与质量差）

文档 -

doc1 = [w1,w2,w3,w4]
doc2 = [w4,w3,w3,w4]
doc3 = [w2,w4,w8,w1]
doc4 = [w5,w4,w0,w9]

文档组 -

good_grp = [doc2, doc1]
bad_grp = [doc3, doc4]

现在我们必须找出哪些词实际上对使文档好与坏很重要？

想法1： 将属于文档组1的文档中的所有单词合并为单个文档say（good quality doc）和另一个是（bad quality doc），并计算每个doc的tf-idf score；但在这种情况下，我们丢失了文档级单词的信息，现在只看到文档组级单词的重要性。

doc1 = [w1,w2,w3,w4]
doc2 = [w4,w3,w3,w4]
doc3 = [w2,w4,w8,w1]
doc4 = [w5,w4,w0,w9]

good_grp = [w1,w2,w3,w4,w4,w3,w3,w4]
bad_grp = [w2,w4,w8,w1,w5,w4,w0,w9]

有人可以帮助我找到更好的方法 tf-idf 或任何其他技术来解决这个问题吗？