我想为英语、法语和德语构建一个基本的语言检测器。
我去了维基百科,下载了所有这些语言的“技术”页面。
在所有这些情况下,我们都在谈论大约 10000 个单词。
所以基本上我有 3 份 10000 字的文档,分别对应上述 3 种语言。
我的问题如下:
我应该将这些文档拆分为较小的文档,例如 100 个单词,并以这种方式在我的数据集中创建更多标记的观察结果,还是应该让它们像这样用于训练我的分类器(例如使用 TF-IDF 模型)?
我想为英语、法语和德语构建一个基本的语言检测器。
我去了维基百科,下载了所有这些语言的“技术”页面。
在所有这些情况下,我们都在谈论大约 10000 个单词。
所以基本上我有 3 份 10000 字的文档,分别对应上述 3 种语言。
我的问题如下:
我应该将这些文档拆分为较小的文档,例如 100 个单词,并以这种方式在我的数据集中创建更多标记的观察结果,还是应该让它们像这样用于训练我的分类器(例如使用 TF-IDF 模型)?
我认为根据标准词汇(词袋)检测语言应该很容易。
但是,我会将文章分成小块(可能不是 100 个,而是更多的单词,例如 200-500 个),这样您就可以毫无问题地训练和测试您的模型。