问题陈述 :
我们有包含单词列表的文档。总体而言,这些文件分为 2 组(例如,质量好与质量差)
文档 -
doc1 = [w1,w2,w3,w4]
doc2 = [w4,w3,w3,w4]
doc3 = [w2,w4,w8,w1]
doc4 = [w5,w4,w0,w9]
文档组 -
good_grp = [doc2, doc1]
bad_grp = [doc3, doc4]
现在我们必须找出哪些词实际上对使文档好与坏很重要?
想法1: 将属于文档组1的文档中的所有单词合并为单个文档say(good quality doc)和另一个是(bad quality doc),并计算每个doc的tf-idf score;但在这种情况下,我们丢失了文档级单词的信息,现在只看到文档组级单词的重要性。
doc1 = [w1,w2,w3,w4]
doc2 = [w4,w3,w3,w4]
doc3 = [w2,w4,w8,w1]
doc4 = [w5,w4,w0,w9]
good_grp = [w1,w2,w3,w4,w4,w3,w3,w4]
bad_grp = [w2,w4,w8,w1,w5,w4,w0,w9]
有人可以帮助我找到更好的方法 tf-idf 或任何其他技术来解决这个问题吗?