剥离 HTML/XML 保持位置的 Spacy 标记器

数据挖掘 斯派西
2022-02-09 23:44:00

我是 Spacy 的新手,实际上是数据科学的新手。我想为 NER 处理一些 XML 文件,然后在原始 XML 中进行标记。我想知道如何为 NER 标记 XML。我认为我应该过滤掉 XML 标签/代码,然后在保留位置的同时提供剩余的文本,以便我可以获得与原始 XML 相关的 NER 结果的位置。这将帮助我识别和标记 XML 中的确切位置。

对此的任何想法和指导将不胜感激。谢谢

1个回答

通常,首先解析 XML。然后,可以使用 spaCy 之类的东西分析内容。

xml.etree.ElementTree是 Python 中解析 XML 的最常用方法。