数据挖掘 - 剥离 HTML/XML 保持位置的 Spacy 标记器 - 吾爱随笔录

剥离 HTML/XML 保持位置的 Spacy 标记器

数据挖掘斯派西

2022-02-09 23:44:00

我是 Spacy 的新手，实际上是数据科学的新手。我想为 NER 处理一些 XML 文件，然后在原始 XML 中进行标记。我想知道如何为 NER 标记 XML。我认为我应该过滤掉 XML 标签/代码，然后在保留位置的同时提供剩余的文本，以便我可以获得与原始 XML 相关的 NER 结果的位置。这将帮助我识别和标记 XML 中的确切位置。

对此的任何想法和指导将不胜感激。谢谢

1个回答

通常，首先解析 XML。然后，可以使用 spaCy 之类的东西分析内容。

xml.etree.ElementTree是 Python 中解析 XML 的最常用方法。

其它你可能感兴趣的问题

上一篇具有目标分层的 K 折组下一篇关于计算相关方法的问题？