我正在使用 Hunspell 对文档中的单词进行拼写检查和词干化以减少维度。对于拼写检查,Hunspell 与 SCOWL(和朋友)的默认 en_US 字典配合得很好,但对于词干处理却不是这样。
原因是字典非常不一致。(例如,有些词在字典中有复数形式,而另一些则没有,因此复数词的词干是否是复数形式是不一致的)。
Hunspell 绝对能够始终如一地阻止英语单词,但它需要另一个在形态上更“正确”的词典。
我可以使用哪些替代词典来提高使用 Hunspell 对英语文本进行词干提取的质量?
如果没有这样的字典,我可以使用哪些其他工具进行词干提取?编辑:请注意,我使用的是 python,它可以轻松地与大多数库和命令行工具连接,但 R 或 Matlab 特定工具可能不太适合我当前的生态系统。