用于词干提取的替代 Hunspell 词典

数据挖掘 nlp 文本挖掘 降维
2022-03-13 00:19:52

我正在使用 Hunspell 对文档中的单词进行拼写检查和词干化以减少维度。对于拼写检查,Hunspell 与 SCOWL(和朋友)的默认 en_US 字典配合得很好,但对于词干处理却不是这样。

原因是字典非常不一致。(例如,有些词在字典中有复数形式,而另一些则没有,因此复数词的词干是否是复数形式是不一致的)。

Hunspell 绝对能够始终如一地阻止英语单词,但它需要另一个在形态上更“正确”的词典。

  1. 我可以使用哪些替代词典来提高使用 Hunspell 对英语文本进行词干提取的质量?

  2. 如果没有这样的字典,我可以使用哪些其他工具进行词干提取?编辑:请注意,我使用的是 python,它可以轻松地与大多数库和命令行工具连接,但 R 或 Matlab 特定工具可能不太适合我当前的生态系统。

1个回答

我无法评论你的问题(我的声誉不够高),但我有几个澄清问题要问:你为什么要词干?文本分类?情绪分析?还有什么?

在进行文本分类时,我使用了“tm”包和“RTextTools”包进行词干提取。两者都有一些用于词干的内置函数。

它们是否对您有用取决于您为什么要阻止单词...

FWIW,以下是与这些软件包相关的一些链接: