是否有像词干提取、词形还原这样的 NLP 方法来找出以下内容?
1=2
3=4
1) provide technical documentation
2) technical documentation
3) use software design patterns
4) software design patterns
是否有像词干提取、词形还原这样的 NLP 方法来找出以下内容?
1=2
3=4
1) provide technical documentation
2) technical documentation
3) use software design patterns
4) software design patterns
正如@hssay 所指出的,您的方式似乎是 PoS 标记然后删除动词。如果您不想亲自动手,您可能更喜欢使用现成的Google 自然语言 Web API。如果您尝试使用 UI,请单击“分析”按钮,然后在“语法”选项卡下,查找“词性”和“动词”。
另一个可以用作 API 的类似工具包是StanfordNLP。
您可能正在寻找“词性标记”。您可以使用任何流行的 NLP 库(检查 Spacy 或 NLTK)来进行词性 (POS) 标记。之后,您可以消除将动词作为语音标签的一部分的标记。不过,POS 标记可能不适用于非常小的句子。