推特数据的 pos 标记和命名实体识别的当前最新技术是什么?工业强度的程序是否适合此类文本Spacy并且准确?和斯坦福的准确度测量如何SparkNLP?FlairNLPCoreNLP
Twitter POS 和 NER:什么是最先进的?
数据挖掘
Python
nlp
命名实体识别
斯派西
2022-03-02 06:19:33
1个回答
SOTA 在 NLP 中的变化如此之快,以至于即使是数据科学专业人士也难以应对。我有两个主要来源,我经常检查以获取有关 SOTA 的一些见解:
Sebastian Ruder 的NLP 进展。它包含关于 NLP 的大量子字段的更新,包括 NER 和 POST。
带有代码的论文包含有关 NLP 的部分。一般来说,这对于 ML 来说是一个很棒的网站。
我知道这些链接并没有专门解决 Twitter 的问题,但是我不认为该域与其他域有本质上的不同。国际海事组织,当然。
关于你的另一个问题:
Spacy 和 SparkNLP 等工业级程序对此类文本是否准确?FlairNLP 和斯坦福大学的 CoreNLP 准确度测量如何?
正如我在上面所写的,这主要取决于个人喜好和/或或有项目需求。没有正确或错误的工具。就个人而言,我发现斯坦福工具是最好的,无论是预测的质量还是单个管道中可用的模型数量。但正如我所说,这是非常主观的。
其它你可能感兴趣的问题