假设我有一个包含 1000 个文档的数据集。
每个文档都是餐厅评论(文本相对较短),并带有标签 {Negative, Indifferent, Positive}。
假设数据集有 600 条正面评论、200 条中立评论和 200 条负面评论。
我想训练一个分类器根据评论的文本将评论分类为负面、无关紧要或正面。
我暂时不考虑使用任何词嵌入,因此我可能会使用 TF 或 TF-IDF 模型(尽管这对于当前问题可能有点偏离主题)。
假设在我的情况下,我将数据集(以分层方式)拆分为包含 800 个观测值的训练集和包含 200 个观测值的测试集。
我的问题如下:在我的训练集中有 800 个单独的文档还是根据其类别/标签合并这些文档并创建 3 个非常大的文档更好?
有 3 个标签中的任何一个的 800 个单独的文档或每个标签的 3 个大文档是最好的方法,为什么?
我的问题源于这样一个事实,即在后一种情况下,例如,如果我做 TF-IDF,那么这将基于不同的类别/标签应用,因为每个文档都与一个类别/标签有关。
另一方面,如果我像前一种情况那样(实际上我们通常这样做),那么 TF-IDF 将与类别/标签无关,我不知道这会有所帮助。
答案仅仅是因为这是一个有趣但非常糟糕的主意吗,因为通过这种方式,您只是大量减少了训练模型/算法的观察次数,因此您使他更难弄清楚如何成功地对事物进行分类?