数据挖掘 - 将大文件拆分成许多小文件？ - 吾爱随笔录

我想为英语、法语和德语构建一个基本的语言检测器。

我去了维基百科，下载了所有这些语言的“技术”页面。

在所有这些情况下，我们都在谈论大约 10000 个单词。

所以基本上我有 3 份 10000 字的文档，分别对应上述 3 种语言。

我的问题如下：

我应该将这些文档拆分为较小的文档，例如 100 个单词，并以这种方式在我的数据集中创建更多标记的观察结果，还是应该让它们像这样用于训练我的分类器（例如使用 TF-IDF 模型）？