哪个NLP库的中文语言模型最成熟?

数据挖掘 nlp 命名实体识别
2022-03-08 08:26:03

我正在尝试对简体中文文本进行一些 NLP(需要提取句子结构并进行命名实体识别)。我以前使用 spaCy 处理英文文本,但我看到中文模型上的注释表明它们正在进行中,而且我尝试过的示例的 NER 提取精度很差。

哪个NLP库有最成熟的预建中文语言模型?理想情况下基于 Python。

2个回答

没有支持中文高质量命名实体识别的通用库。

其他选项包括GitHub 上的 Information-Extraction-Chinese或用代码改编论文

在针对中文文本评估了几个库之后:

  • spaCy 的 POS 标注准确度较差
  • Stanford Stanza 的 POS 标记通常很好,但经常错误地将单个单词句子中的单词识别为 POS = "PUNCT"
  • NLTK 本身不处理中文词性标注
  • CoreNLP 具有良好的 POS 标记准确性,并且可以合理地进行 NER 标记。

我怀疑这更多的是关于预建模型的质量,而不是库本身。