软件/库建议:周围有可用的开源序列标记器吗?

数据挖掘 nlp 贴标签
2022-03-05 01:48:52

(不确定这是否是该问题的正确社区-如果stats.或其他更合适的方法,请投反对票...)

我正在寻找有关实现非词性特定序列标记/标签的命令行工具或库(最好是 Python 或 Ruby,但此时,任何事情都可以)的建议。如果它是 PoS 特定的,但可以针对自定义类别进行重新训练,那也很好。

我发现的项目似乎大多是被遗弃的博士论文代码库或类似的,我无法让它们中的任何一个以实际的方式工作。我最了解的是pytorch-sequence-tagger

如果它有助于提供建议:目的是区分属于图书馆类别标记的标记和属于作者姓名或书名的标记,但输入数据对于基于规则的系统来说太不规则而无法工作100%。

1个回答

可以通过搜索条件随机场这一术语来找到序列标记库,这是最先进的方法。可能还可以通过搜索术语命名实体识别来找到库和教程,这无疑是序列标签中最标准的 NLP 应用程序。

以下是我知道的几个库:

另请参阅此问题