将大文件拆分成许多小文件?

数据挖掘 分类
2022-03-02 21:14:16

我想为英语、法语和德语构建一个基本的语言检测器。

我去了维基百科,下载了所有这些语言的“技术”页面。

在所有这些情况下,我们都在谈论大约 10000 个单词。

所以基本上我有 3 份 10000 字的文档,分别对应上述 3 种语言。

我的问题如下:

我应该将这些文档拆分为较小的文档,例如 100 个单词,并以这种方式在我的数据集中创建更多标记的观察结果,还是应该让它们像这样用于训练我的分类器(例如使用 TF-IDF 模型)?

1个回答

我认为根据标准词汇(词袋)检测语言应该很容易。

但是,我会将文章分成小块(可能不是 100 个,而是更多的单词,例如 200-500 个),这样您就可以毫无问题地训练和测试您的模型。